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本 书 司 Packt Publishing 公司 授权 人 民 邮 电 出 版 社 出 版 。 未 经 出 版 者 书面 许可 ,对 本 书 的 任何 部 分 不 得 以 任何 方式 
或 任何 手段 复制 和 传播 。 
版 权 所 有 ， 侵 权 必 究 。 
内 容 提 要 
LTK 库 是 当前 自然 语言 处 理 (NLP) 领域 最 为 流行 、 使 用 最 为 广泛 的 库 之 同时 Python 语言 也 已 逐渐 成 为 主流 
的 编程 语言 之 一 。 
本 书 主要 介绍 如 何 通 过 NLTK 库 与 一 些 Python 库 的 结合 从 而 实现 复杂 的 NLP 任务 和 机 器 学 习 应 用 。 全 书 共 分 为 10 
。 第 1 章 对 NLP 进行 了 简单 介绍 。 第 2 章 、 第 3 章 和 第 4 章 主 要 介绍 一 些 通用 的 预 处 理 技术 、 专 属于 NLP 领域 的 预 
处 理 技术 以 及 命名 实体 识别 技术 等 。 第 5 章 之 后 的 内 容 侧重 于 介绍 如 何 构建 一 些 NLP 应 用 ， 涉 及 文本 分 类 、 数 据 科 学 
和 数据 处 理 、 社 交 媒 体 挖 掘 和 大 规模 文本 挖掘 等 方 二 
本 书 适 合 NLP 和 机 器 学 习 领 域 的 爱好 者 、 对 文本 处 理 感 兴趣 的 读者 、 想 要 快速 学 习 NLTK 的 资深 Python 程序 员 以 
及 机 器 学 习 领 域 的 研究 人 员 阅 读 。 
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Nitin Hardeniya 数据 科学 家 ， 拥 有 4 年 以 上 从 业经 验 ， 期 间 分 别 任职 于 Fidelity、 
Groupon 和 [24]7 等 公司 ， 其 业务 横路 各 个 不 同 的 领域 。 此 外 ， 他 还 拥有 IIT-H 的 计算 语言 
学 硕士 学 位 ， 并 且 是 5 项 客户 体验 专利 的 作者 。 

他 热衷 于 研究 语言 处 理 及 大 型 非 结构 化 数据 ,至少 拥有 5 年 日 常 使 用 Python 的 工作 经 
验 。 他 相信 ， 用 Python 可 以 构建 出 大 部 分 与 数据 科学 相关 问题 的 单 点 解决 方案 。 

他 将 自己 写 这 本 书 的 经 历 看 成 是 自己 职业 生涯 的 众多 荣誉 之 一 ， 和 希望 用 一 种 非常 简单 
的 形式 为 人 们 介绍 与 NLP 和 机 器 学 习 相 关 的 、 所 有 的 这 些 复杂 工具 。 在 这 本 书 中 ， 他 为 读 
者 提供 了 一 种 变通 方法 ， 即 使 用 一 些 相 关 特 定 能 力 的 Python 库 ， 如 NLTK、scikit-learn、 
panda 和 NumpPy 等 。 
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Afroz Hussain 数据 科学 家 ， 目 前 在 PredictifyMe 公司 从 事 与 美 国 基 础 数据 科学 、 机 器 
学 习 起 步 相关 的 研究 。 他 在 数据 科学 领域 拥有 丰富 的 项 目 经 验 、 多 年 使 用 Python、 
scikit-learn， 以 及 基于 NLTK 进行 文本 挖掘 的 工作 经 历 。 他 拥有 10 年 以 上 的 编程 经 验 以 及 
与 数据 分 析 和 商业 智能 项 目 相关 的 软件 开发 经 验 。 此 外 , 他 还 通过 在 线 课程 以 及 参加 Kaggle 
比赛 等 活动 ， 获 得 了 不 少数 据 科 学 领域 的 新 技能 。 


Sujit Pal 目前 就 职 于 Elsevier 实验 室 ， 这 是 一 个 包含 了 Reed-Elsevier PLC 工作 组 在 内 
的 研发 团队 。 他 的 兴趣 主要 集中 在 信息 检索 、 分 布 式 处 理 、 本 体 开 发 、 自 然 语 言 处 理 和 机 
器 学 习 这 几 个 领域 。 而 且 ， 他 也 很 喜欢 用 Python、Scala 和 Java 来 编写 自己 的 代码 。 他 充 
分 整合 了 自己 在 这 些 方面 的 技能 ， 帮 助 公 司 改 进 了 不 同 产 品 的 一 些 特性 并 构建 了 一 些 新 特 
性 。 他 深信 自己 需要 终身 学 习 ， 并 且 也 在 博客 : sujitpal.blogspot.com 中 分 享 其 经 验 。 

Kumar Raj 第 二 代数 据 科 学 家 ， 目 前 就 职 于 惠普 软件 的 研发 部 门 ， 为 其 提供 相关 的 
解决 方案 。 在 那里 ， 他 主要 负责 开发 以 惠普 软件 产品 为 核心 的 分 析 层 。 他 毕业 于 印度 理工 
学 院 Kharagpur 技术 分 校 ， 并 具有 两 年 以 上 各 种 大 数据 分 析 领 域 的 工作 经 验 ， 涉 及 文本 分 
析 、 网 页 抓 取 及 检索 、 人 力 资源 分 析 、 虚 拟 系统 的 性 能 优化 ， 以 及 气候 变化 的 预测 等 。 
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说 来 也 凑巧 , 在 我 签 下 这 本 书 的 翻译 合同 时 , 这 个 世界 好 像 还 不 知道 AlphaGo 的 存在 。 
而 在 我 完成 这 本 书 的 翻译 之 时 ，Master 已 经 对 人 类 顶级 高 手 连 胜 60 局 了 。 至少 从 媒体 的 热 
度 来 看 ， 的 确 在 近 几 年 ， 人 工 智 能 似乎 是 越 来 越 火 了 。 其 原因 是 Google 在 汽车 驾驶 和 围棋 
这 两 个 领域 的 项 目 得 到 了 很 好 的 进展 和 宣传 ， 而 这 两 个 领域 在 过 去 被 很 多 人 想当然 地 认为 
是 人 类 的 专属 领域 。 因 此 在 专属 领域 接连 被 突破 情况 下 ， 一 些 人 得 了 “机 器 恐惧 症 ”。 例 如 
高 晓 松 先生 的 这 段 微 博 : 







































































@@ 高 晓 松 由 

作为 自 幼 学 棋 ， 尝 拜 国手 的 业余 棋 手 ， 看 了 Master50 : 0 横扫 中 日 韩 顶尖 高 手 的 对 局 ， 难 
过 极 了 。 为 所 有 的 大 国手 伤心 ， 路 已 经 走 完了 。 多 少 代 大 师 上 下 求索 ， 求 道 求 术 ， 全 被 破 
解 。 未 来 一 个 八 岁 少年 只 要 一 部 手机 就 可 以 战胜 九段 ， 荣 誉 信仰 灰飞烟灭 。 等 有 一 天 ， 机 
器 做 出 了 所 有 的 音乐 和 诗歌 ， 我 们 的 路 也 会 走 完 。 

1 月 4 日 16:21 来 自 iPhone7 Plus 



































































































































其 实 之 所 以 会 有 这 样 恐 惧 ， 大 部 分 是 因为 人 们 在 讨论 人 工 智能 的 时 候 容 易 将 机 器 “人 
格 化 ”， 很 多 科幻 作品 就 是 这 么 干 的 ， 这 看 起 来 很 合理 ， 但 问题 是 机 器 无 论 如 何 都 不 是 人 。 
对 于 机 器 来 说 ， 围 棋 说 穿 了 不 过 是 一 种 基于 统计 学 概率 的 决策 模型 ， 属 于 数学 领域 的 问题 ， 
它 本 来 就 是 机 器 的 强项 。 用 围棋 对 于 人 类 的 难度 来 推导 机 器 智能 的 进步 ， 其 实 是 很 没有 届 
辑 的 事情 。 而 且 事实 上 ， 今 天 所 流行 的 这 些 人 工 智能 方法 都 是 在 20 世纪 70 年 代 前 后 提出 
的 理论 ， 今 天 的 辉煌 主要 是 由 于 硬件 的 进步 为 实现 提供 了 基础 ， 但 在 智能 上 并 没有 多 大 的 
实质 突破 。 要 知道 ， 人 们 对 于 鉴定 人 工 智能 的 主要 标准 早 有 定论 ， 那 就 是 图 灵 测 试 。 

图 灵 测 试 关注 的 是 人 机 对 话 能 力 ， 换 句 话说， 什么 时 候 机 器 能 通过 对 话 骗 到 你 的 一 百 
块 钱 ， 也 比 它 下 棋 下 启 世 界 冠军 更 智能 点 。 而 想 要 增强 人 机 对 话 能 力 ， 自 然 语言 处 理 就 是 
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2 译 者 序 


首当其冲 的 一 个 领域 了 了。 正如 我 们 所 说 ， 机 器 的 专长 是 数学 领域 ， 所 以 自然 语言 处 理 问题 
的 目的 就 是 要 把 我 们 人 类 的 文本 、 音 频 转 换 成 可 被 分 析 的 数学 模型 ， 这 对 于 机 器 来 说 是 比 
围棋 困难 得 多 的 事情 。 这 也 是 人 类 和 机 器 的 根本 区 别 ， 对 于 这 两 种 智能 来 说 ， 困 难 的 定义 
是 截然 不 同 的 。 
说 实话 ， 刚 开始 译 这 本 书 的 时 候 ， 我 对 它 的 翻译 难度 有 些 估 计 不 足 ， 很 多 专业 词汇 国 
内 还 似乎 还 没有 标准 译 法 。 有 些 甚 至 根本 找 不 到 对 应 的 中 文 翻译 。 虽 然 对 于 每 个 小 节 我 都 
期 望 查 阅 大 量 的 资料 ， 尽 量 保证 翻译 的 质量 ， 但 实在 有 点 太 累 人 了 ， 太 费时 了 ， 受 协 、 遗 
憾 在 所 难免 。 在 这 里 向 读者 们 致 粹 ， 还 希望 你 们 多 多 包涵 。 同 时 也 感谢 人 民 邮 电 出 版 社 的 
陈 乙 康 编 辑 对 于 我 拖 稿 行为 的 容 义 ， 其 实 我 还 想 再 拖 上 半年 的 。 

六 去 


2017 年 1 月 10 日 
于 新 安江 昱 
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这 是 一 本 介绍 NLTK 库 ， 以 及 如 何 将 该 库 与 其 他 Python 库 搭配 运用 的 书 。NLTK 是 
当前 自然 语言 处 理 (NLP) 社区 中 最 为 流行 、 使 用 最 为 广泛 的 库 之 一 。NLTK 的 设计 充分 
体现 了 简单 的 魅力 。 也 就 是 说 ， 对 于 大 多 数 复杂 的 NLP 任务 ， 它 都 可 以 用 密 灾 儿 行 代码 
来 实现 。 

本 书 的 前 半 部 分 从 介绍 Python 和 NLP 开始 。 在 这 部 分 内 容 中 ， 你 将 会 学 到 一 些 通用 
的 预 处 理 技术 ， 例 如 标识 化 处 理 (tokenization )、 词 干 提取 (stemming)、 停 用 词 (stop word) 
去 除 ; 一 些 专 属于 NPL 领域 的 预 处 理 技 术 等 ， 如 词性 标注 (part-of-speech tagging); 以 及 
大 多 数 文本 相关 的 NLP 任务 都 会 涉及 的 命名 实体 识别 (Named-entity recognition, 简称 NER) 
等 技术 。 然 后 ， 我 们 会 逐步 将 焦点 转 到 更 为 复杂 的 NLP 任务 上 ， 例 如 语法 解析 (parsing) 
以 及 其 他 NLP 应 用 。 

本 书 的 后 半 部 分 则 将 更 侧重 于 介绍 如 何 构建 一 些 NLP 应 用 ， 如 对 于 文本 分 类 ， 可 以 用 
NLTK 搭配 scikit-learn 库 来 进行 。 我 们 还 会 讨论 一 些 其 他 的 Python 库 ， 你 应 该 了 解 一 下 这 
些 与 文本 挖 据 或 自然 语言 处 理 任务 相关 的 库 。 男 外 ， 也 会 带 你 看 看 如 何 从 网 页 和 社交 媒体 
中 采集 数据 ， 以 及 如 何 用 NLTK 进行 大 规模 的 文本 处 理 。 


本 书 所 涵盖 的 内 容 




















































































































































































































第 1 章 ”自然 语言 处 理 简 介 。 这 一 章 将 会 涉及 一 些 NLP 中 的 基本 概念 ， 并 对 NLTK 和 
Python 做 一 些 介绍 。 这 一 章 的 重点 是 让 你 快速 了 解 NLIK， 并 介绍 如 何 安装 所 需要 的 库 ， 
以 便 开 始 构建 一 个 非常 基本 的 单词 云 实例 。 
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第 2 章 文本 的 歧义 及 其 清理 。 这 一 章 将 会 讨论 在 任何 文本 挖掘 和 NLP 任务 











所 需 的 











所 有 预 处 理 步 又。 这 一 章 将 会 具体 讨论 断 词 处 理 、 词 干 处 理 




















E、 停 用 词 去 除 等 技术 。 并 





还 会 为 你 详细 介绍 一 些 别 的 文本 清理 技术 ， 以 及 如 何 用 NLTK 来 简化 它们 的 实现 。 
第 3 章 词性 标注 。 这 一 章 将 重点 对 词性 标注 进行 概述 。 在 这 一 章 中 ， 我 们 将 会 头 


























你 介绍 如 何 将 NLTK 运用 到 一 些 标注 器 中 ， 并 讨论 NLTK 中 有 哪些 不 同 的 NLP 标注 























可 用 。 








第 4 章 文本 结构 解析 。 这 一 草 将 会 带 你 继续 深入 NLP， 讨 论 不 同 的 语法 解析 方法 ， 
并 介绍 如 何 用 NLTK 来 实现 这 些 方 法 ,在 此 过 程 中 , 我 们 会 讨论 语法 解析 在 NLP 语 境 中 




















以 及 一 些 常 见 的 信息 提取 技术 “如 实体 提取 〉 中 的 重要 性 。 


第 5 章 NLP 应 用 。 这 一 章 将 会 谈 及 各 种 不 同 的 NLP 
些 当 前 已 掌握 的 知识 来 构建 出 一 个 简单 的 NLP 应 用 实例 。 





















































将 主要 集中 在 文本 语料库 ， 以 及 如 何 用 NLTK 和 scikit 来 构 
类 器 。 当 然 ， 也 会 讨论 与 文本 聚 类 和 主题 模型 相关 的 内 容 。 








第 7 章 Web 礁 虫 。 这 一 章 将 讨论 NLP、 数据 科学 和 数据 收集 中 其 他 方面 的 处 至 
Web 中 获取 相关 的 数据 。 在 这 里 ， 我 们 将 学 习 如 何 

















以 及 如 何 从 最 大 的 文本 数据 源 之 一 




















第 6 章 文本 分 类 。 这 一 章 将 会 介绍 一 些 机 器 学 习 领域 中 常见 
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表 








的 ， 


应 用 ， 我 们 将 会 带领 你 利用 一 




















建 管 























用 Python 库 、Scrapy 来 建立 一 只 运作 良好 的 Web 朴 虫 (crawler)。 








第 8 章 ”NLTK 与 其 他 Python 库 的 搭配 运用 。 这 一 章 将 会 谈 及 一 些 骨 干 的 Python 





如 NumPy 和 SciPy。 另 外 ， 我 们 也 会 简单 地 介绍 一 下 用 于 数据 处 到 




















处 理 的 matplotlib 。 

















的 分 类 方法 。 讨 论 





已 
道 ， 从 而 实现 一 个 文本 分 


下 点 
局 


任务 ， 


库 ， 





的 panda 和 用 于 可 视 化 


第 9 章 Python 中 的 社交 媒体 挖掘 。 这 一 草 将 致力 于 数据 采集 相关 的 内 容 。 在 这 里 ， 
我 们 将 会 讨论 社交 媒体 ， 以 及 与 社交 媒体 相关 的 其 他 问题 。 当 然 ， 我 们 也 会 讨论 具体 应 该 








如 何 收集 、 分 析 并 可 视 化 社交 媒体 中 的 数据 。 











第 10 章 ”大 规模 文本 挖掘 。 这 一 章 将 讨论 如 何 扩展 NLTK， 
库 , 使 其 适应 大 数据 时 代 规 模 化 执行 的 需要 。 我 们 将 会 给 出 一 个 简短 的 演示 ,以 说 明 NLTK 














和 scikit 是 如 何 与 Hadoop 搭配 使 用 的 。 


前 期 准备 








在 阅读 这 本 书 之 前 ， 我 们 建议 你 应 该 准备 好 下 列 软 件 : 
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开 配 合 一 些 别 的 Python 































































































































































































自由 软件 / CR 硬件 技术 | 所 需 操 
章 ”| 所 需 软件 (版 本 ) , 软件 下 载 链 接 Sg 
专 有 软件 指标 作 系 统 
https://www.python.org/ 
| | 通用 UNIX 
1 一 5 | Python/Anaconda、NLIK | 自由 软件 |http://continuum.io/downloads 不 限 
印 系统 
http://www.nltk.org/ 
http://scikit-learn.org/stable/ | 通用 UNIX 
6 scikit-learn、 gensim 自由 软件 ys 不 限 
https://radimrehurek.com/gensim/ | 打印 系统 
前 用 UNIX 
7 Scrapy 自由 软件 |http://scrapy.org/ 不 限 
打印 系统 
http://www.numpy.org/ 
NumPy、 SciPy、 pandas http://www.scipy.org/ 通用 UNIX 
8 自由 软件 不 限 
以 及 matplotlib http://pandas.pydata.org/ 打印 系统 
http://matplotlib.org/ 
https://dev.twitter.com/overyv 
Twitter Python API 与 通用 UNIX 
9 自由 软件 |iew/api/twitter-libraries a 不 限 
Facebook Python API 打印 系统 
https://developers.facebook.com 





本 书 的 适用 读者 


只 要 你 是 NLP 和 机 器 学 习 领 


























页 域 的 爱好 者 ， 无 论 之 前 有 没有 文本 处 理 方面 的 经 验 ， 这 本 


书 都 是 为 你 准备 的 。 当 然 ， 这 本 书 也 非常 适合 那些 想 要 快速 学 习 一 下 NLTK 的 资深 Python 


程序 员 。 
编写 体例 


在 本 书 中 ， 我 们 会 月 








日 不 同 的 文本 样式 来 突显 不 同类 型 信息 之 间 的 区 别 。 下 面 ， 我 们 就 








通过 几 个 例子 来 介绍 一 下 这 些 样 式 ， 














对 于 正文 当中 所 涉及 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 





步 社区 


以 及 它们 所 代表 的 含义 











名 、 文 件 扩展 名 、 路 径 名 、 
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4 ”前言 


Ul 











伪 URL、 用 户 输入 以 及 Twitter 句柄 ， 我 们 将 采取 如 下 形式 :“ 我 们 需要 创建 一 个 名 为 
NewsSpiderpy 文件 ， 并 将 其 路 径 设置 为 /tutorial/spiders。” 


接 下 来 是 Python 代码 块 : 








>>>import nltk 
>>>import numpy 


还 有 一 般 性 的 代码 块 : 


add FILE vectorizer.pkil; 
add FILE classifier.pkil; 














另外 ， 在 第 7 章 中 ， 我 们 还 将 会 用 到 Scrapy shell 中 的 IPython 记 法 ， 其 样式 如 下 : 








In [1] : sel.xpath('//title/text()') 
Out[1]: [<Selector xpath='//title/text()' data=u' Google News '>] 





最 后 是 所 有 命令 行 输入 或 输出 信息 的 样式 : 








# cp /usr/src/asterisk-addons/configs/cdr mysql .conf.sample 
/etc/asterisk/cdr mysql.conf 


， ”提示 : 
\ 吕 这 种 形式 表达 的 是 一 些 需要 读者 警惕 的 或 需要 重点 关 
注 的 内 容 。 


-» 小 技巧 : 
QQ 这 种 形式 所 提供 的 是 一 些 提 示 或 小 技巧 。 


读者 反馈 


我 们 始终 欢迎 任何 来 自 读 者 的 反馈 信息 。 它 能 让 我 们 了 解 你 对 于 这 本 书 的 看 法 一 一 无 
论 是 喜欢 还 是 不 喜欢 。 这 些 反 馈 对 于 我 们 的 选 题 开发 来 说 都 是 至 关 重 要 的 。 

对 于 一 般 的 反馈 ， 你 只 需 简 单 地 给 feedback@packtpub.com 发 一 份 电子 邮件 ， 并 在 邮 
件 的 标题 中 注 明 这 本 书 的 书 名 即 可 。 
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如 果 你 对 某 一 话题 有 专长 ， 并 且 有 兴趣 写 〈 或 奉献 ) 一 本 这 方面 的 书 ， 请 参考 我 们 的 
作者 指南 : www.packtpub.com/authors。 


客户 支持 




















你 一 直 都 是 Packt 图 书 的 主人 ， 我 们 将 会 尽 一 切 努 力 来 帮助 你 获取 最 好 的 图 书 资讯 。 


实例 代码 的 下 载 














你 可 以 在 http:/www.packtpub.com 自己 的 账户 页 面 中 找到 所 有 已 购买 的 Packt 图 书 , 并 
下 载 相关 的 实例 代码 。 如 果 你 是 在 别处 购买 了 我 们 的 图 书 ， 也 可 以 通过 访问 http:/www. 
packtpub.com/support 注册 有 关 文 件 ， 我 们 会 通过 电子 邮件 将 其 直接 发 给 你 。 


勘误 































































































尽管 我 们 已 经 尽 了 最 大 的 努力 来 确保 书 中 内 容 的 正确 性 ， 但 错误 始终 是 存在 的 。 如 果 
你 在 我 们 的 书 中 发 现 了 错误 无 论 是 关于 文字 的 还 是 代码 的 一 一 只 要 你 能 告诉 我 们 ， 我 
们 都 将 不 胜 感激 。 因 为 这 样 可 以 大 大 减少 其 他 读者 在 阅读 方面 所 遇 到 的 困难 。 因 此 ， 当 
你 发 现 错误 时 ， 只 需要 访问 http:/www.packtpub.com/submit-errata， 选 择 相应 的 书 名 ， 然 
后 单 击 “errata submission form” 链 接 并 输入 相关 错误 的 详细 信息 即 可 。 一 旦 你 提供 的 信 
息 获 得 了 确认 ， 相 关 的 内 容 台 被 更 新 到 我 们 的 网 站 或 对 应 图 书 勘误 章节 下 面 现 有 的 勘误 
表 中 。 

如 果 想 要 查看 先前 已 提交 的 勘误 信息 ， 你 只 需 访 问 https://www.packtpub.com/books/ 
content/support， 并 在 其 搜索 域 中 输入 相关 图 书 的 名 称 ， 所 需 信 息 就 会 出 现在 下 面 的 勘误 部 
分 中 。 


版 权 


































































































































































































在 互联 网 上 ， 版 权 对 于 所 有 媒介 而 言 一 直 是 一 个 很 大 的 问题 。 在 Packet， 我 们 向 来 对 
于 版 权 许 可 非常 重视 。 如 果 你 在 网 络 上 发 现任 何 形式 的 我 们 出 版 过 的 作品 ， 都 请 马上 将 网 
址 或 网 站 名 称 告知 我 们 ， 以 便于 我 们 采取 补救 措施 。 
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容 
. 




















|: copyright@packetpub.com.。 
尔 带 来 有 价值 的 内 


此 才能 继续 为 





至 























请 将 你 怀疑 有 侵权 行为 的 文档 链接 发 送 
的 帮助 是 对 作者 权利 的 保护 ， 我 们 也 | 


你 付 吕 











如 有 疑问 





如 果 你 对 本 书 有 任何 疑问 ， 也 可 以 通过 questions@packtpub.com 跟 我 们 联系 ， 我 们 会 


竭尽 所 能 地 帮 你 解决 问题 
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常 被 叫 作 语言 学 家 ， 而 “计算 机 语言 学 家 ”这 个 专 
言 处 至 


UD 1i0 


用 加 避 开 汉 吉 加 小 间 网关 际 轿 吉 








现在 ， 让 我 们 先 从 介绍 自然 语言 处 理 (NLP) 开始 吧 。 众 所 周知 ， 语 言 是 人 们 日 常生 

























































































活 的 核心 部 分 ， 任 何 与 语言 问题 相关 的 工作 都 会 显得 非常 有 意思 。 和 希望 这 本 书 能 带 你 领略 
到 NLP 的 风采 ， 并 引起 学 习 NLP 的 兴趣 。 首 先 ， 我 们 需要 来 了 解 一 下 该 领域 中 的 一 些 令 
人 惊叹 的 概念 ， 并 在 工作 中 实际 尝试 一 些 具 有 挑战 性 的 NLP 应 用 。 




















在 英语 环境 中 ， 语 言 处 理 研究 这 一 领域 通常 被 简称 为 NLP。 对 语言 有 深入 研究 的 人 通 












































名词 则 指 的 是 将 计算 机 科学 应 用 于 语 
































E 领 域 的 人 。 因 此 从 本 质 上 来 说 , 一 个 计算 机 语言 学 家 应 该 既 有 足够 的 语言 理解 能 力 ， 


























同时 还 可 以 用 其 计算 机 技能 来 模拟 出 语言 的 不 同方 面 。 虽 然 计 算 机 语言 学 家 主要 研究 的 是 


语言 处 理 理论 ， 但 NLP 无 疑 是 对 计算 机 语言 学 的 具体 应 用 。 


NLP 多 数 情 况 下 指 的 是 计算 机 上 各 种 大 同 小 异 的 语言 处 理应 
建 的 实际 应 用 程序 。 在 实践 中 ，NLP 与 教 孩 子 学 语言 的 过 程 非常 类 似 。 其 大 多 数 任务 (如 



































































































































,以 及 用 NLP 技术 所 构 


对 单词 、 语 句 的 理解 ， 形 成 语法 和 结构 都 正确 的 语句 等 对 于 人 类 而 言 都 是 非常 自然 的 能 
力 。 但 对 于 NLP 来 说 ， 其 中 有 一 些 任务 就 必须 要 转向 标 


语法 解析 、 机 器 翻译 及 语音 识别 等 这 些 领 域 的 一 部 分 ， 


















































识 化 处 理 、 
晶 这 些 任务 有 一 大 部 分 还 仍 是 当前 























计算 机 领域 中 非常 为 手 的 挑战 。 在 本 书 中 ， 我 们 将 更 侧 习 
们 会 假设 读者 在 NLP 上 已 经 有 了 一 些 背景 知识 。 所 以 ， 读 者 最 好 在 最 低 限 度 上 对 编程 语言 








到 二 





























点 了 解 ， 并 对 NLP 和 语言 学 有 一 定 的 兴趣 。 











语 块 分 解 、 词 性 标注 、 




















EE 于 讨论 NLP 的 实用 方面 ， 因 此 我 


在 阅读 完 本 章 之 后 ， 我 们 希望 读者 能 掌握 以 下 内 容 。 





对 NLP 及 其 相关 概念 有 个 基本 的 了 解 。 
完成 Python 和 NLTK 及 其 他 库 的 安装 。 
编写 一 些 非 常 基本 的 Python 和 NLTK 代码 片段 。 
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2 第 1 章 自然 语言 处 理 简 介 


如 果 你 从 来 没有 接触 过 NLP 这 个 概念 词 ， 我 们 在 下 面 给 你 推荐 了 两 本 书 , 请 花 一 些 时 
间 阅 读 一 下 其 中 的 任何 一 本 一 一 只 需要 看 看 它们 的 前 几 章 即 可 。 另 外 ， 你 也 应 该 快速 浏览 
下 维基 百科 上 与 NLP 相关 的 页 面 。 


。 《Speech and Language Processing》， 由 Daniel Jurafsky 与 James H. Martin 合 著 。 




































































e。 《Statistical Natural Language Processing》， 由 Christopher D. Manning 与 Hinrich 
Schti tze 合 车 。 


1.1 为 什么 要 学 习 NLP 


关于 这 个 问题 , 我们 可 以 先 来 看 看 Gartner 公司 新 一 轮 的 趋势 报告 , 你 可 以 很 清晰 地 看 
到 ，NLP 技术 赫然 高 居 榜 首 。 目 前 ，NLP 0 eo et 之 一 。 自 大 数据 
的 概念 问世 之 后 , 我 们 所 面 对 的 主要 越 来 越 多 不 仅 能 处 理 结构 化 数据 ， 
同时 也 能 处 理 羊 结构 化 或 非 结构 化 数据 的 人 才 。 对 于 我 们 所 生产 出 来 的 那些 博客 、 微 博 、 
Facebook 订阅 、 聊 天 信息 、E-mail 以 及 网 络 评论 等 ， 各 公司 都 在 致力 于 收集 所 有 不 同 种 类 
的 数据 ， 以 便 建立 更 好 的 客户 针对 性 ， 形 成 有 意义 的 见解 。 而 要 想 处 理 所 有 的 这 些 非 结构 
化 数据 源 ， 我 们 就 需要 掌握 一 些 NLP 技能 的 人 员 。 


身 处 信息 时 代 , 我 们 甚至 不 能 想象 生活 中 没有 Google 会 是 什么 样子 。 我 们 会 因 一 些 最 
基本 的 事情 而 用 到 Siri; 我 们 会 需要 用 垃圾 过 滤器 来 过 滤 垃 圾 邮件 ; 我 们 会 需要 在 自己 的 Word 
文档 中 用 到 拼写 检查 器 等 。 在 现实 世界 中 所 要 用 到 的 NLP 应 用 数不胜数 ， 如 图 1-1 所 示 。 
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图 1-1 
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在 这 里 ， 我们 可 以 再 列举 一 些 令 人 惊叹 的 NLP 应 用 实例 。 












































但 未 必 知 道 这 些 应 用 是 基于 NLP 技术 的 。 


构 











拼写 校正 (MS Word/ 其 他 编辑 器 )。 
搜索 引擎 (Google、Bing、Yahoo!、WolframAlph 








语音 引擎 (Siri、Google Voice )。 

垃圾 邮件 分 类 《〈 所 有 电子 邮件 服务 )。 
新 闻 订 阅 〈Google、Yahoo! 等 )。 

机 器 翻译 (Google 翻译 与 其 他 类 似 服 务 )。 
IBM Watson”。 



















































































些 语言 的 工具 。 因 此 ， 这 些 不 仅 是 各 NLP 最 具 优势 领域 的 未 来 趋 


























这 种 最 独特 技能 所 能 创建 的 应 用 种 类 


在 实现 上 面 提 到 的 茶 些 应 用 以 及 其 他 基本 的 NLP 预 处 型 
。 这 些 工 具有 些 是 由 相关 组 织 在 建立 自己 的 NLP 应 用 时 开发 的 ， 而 有 些 则 纯粹 属于 开源 










































































项 目 。 下 面 我 们 就 来 看 一 份 NLP 工具 的 小 清单 。 





很 强大 ， 





的 话 ，NLTK 的 得 分 就 非常 

















GATE。 

Mallet。 

Open NLP。 
UIMA。 

Stanford toolkit 。 
Genism 。 


Natural Language Iool Kit (NLIK)。 
































且 提 供 了 各 种 NLP 实用 工具 ,但 如 果 我 们 考虑 至 




















各) 


1.1 为 什么 要 学 习 NLP 3 














串 上 述 这 些 应 用 都 需要 非常 具体 的 技能 ， 需 要 优秀 的 语言 理解 能 力 和 能 











| 易 用 怕 








高 了 。NLTK 库 是 一 个 非常 易学 的 工具 包 ， 记 





势 ， 同 时 也 





虽然 你 很 可 能 已 经 用 过 它们 ， 

















是 我 们 用 NLP 












































EE 时， 我 们 有 许多 开源 工具 可 

















上 述 大 多 数 工具 都 是 用 Java 编写 的 ， 在 功能 上 也 都 很 相似 。 尽 管 这 里 有 








非常 平缓 的 学 习 曲 线 〈 毕 竟 NLTK 是 用 它 编写 的 )， 人 们 学 习 起 来 会 非常 快 。 











Q@ 译 者 注 : IBM 最 新 研制 的 人 工 智能 系统 Watson， 它 的 运算 更 快 ， 记 忆 力 也 更 
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好 ， 能 读 懂 





一 些 人 类 语言 





些 工具 功能 


生 和 其 对 相关 概念 的 解释 度 
这 得 益 于 Python 本 身 


NLIK 库 中 收 











下 版 权 


的 暗喻 和 双关 。 


4 第 1 章 自然 语言 处 理 简介 


纳 了 NLP 领域 中 的 绝 大 部 分 任务 ， 它 们 都 被 实现 得 非常 优雅 ， 且 易于 使 用 。 正 是 出 于 上 述 
的 这 些 原因 ，NLTK 如 今 已 成 为 了 NLP 社区 最 流行 的 库 之 一 。 


在 这 里 ， 我 们 会 假设 读者 已 经 对 Python 语言 有 了 一 定 程度 的 了 解 。 如 果 你 还 不 了 解 的 
话 ， 我 们 希望 你 先 去 学 习 一 下 Python。 如 今 在 互联 网 上 可 以 找到 大 量 的 Python 基础 教程 ， 
并 且 能 让 你 对 该 语言 进行 一 个 快速 概览 的 图 书 也 不 在 少数 。 当 然 ， 我 们 也 会 针对 不 同 主题 
与 你 探讨 Python 的 一 些 特 性 。 但 就 目前 而 言 ， 只 要 你 掌握 了 基本 的 Python 知识 ， 如 列表 、 
字符 串 、 正 则 表达 式 以 及 基本 的 IO 操作 ， 就 可 以 继续 读 下 去 了 。 





























































































































提示 : 
”你 可 以 从 下 列 任意 一 网 站 中 获取 Python 安装 包 。 
e https://www.python.org/downloads/, 
e http://continuum.io/downloads, 


e https://store.enthought.com/downloads/, 








这 里 我 会 推荐 读者 选用 来 自 Anaconda 或 Canopy 的 Python 发 行 版 。 因 为 这 些 发 行 版 本 
身 就 具备 了 一 些 捆绑 库 ， 如 SciPy、numpy、scikit 等 ， 它 们 可 用 于 数据 分 析 及 其 他 与 NLP 
相关 领域 的 应 用 。 甚 至 ，NLTK 也 是 该 发 行 版 的 一 部 分 。 



























































、 ”提示 : 
同人、 请 参照 下 面 网 址 中 的 说 明 来 安装 NLTK 与 NLTK 数据 : 
http://www.nltk.org/install.html., 





下 面 ， 让 我 们 来 测试 一 下 。 
请 在 操作 系统 中 打开 终端 ， 并 运行 : 




















$ Python 


AA 


该 命令 应 该 会 为 你 打开 一 个 Python 解释 器 : 





Python 2.6.6 (r266:84292, Oct 15 2013, 07:32:41) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-4)] on linux2 


















































Type "help", "copyright", "credits" or "license" for more information. 

>>> 

我 希望 你 在 这 里 会 得 到 一 个 与 上 面 情况 类 似 的 输出 。 ， 你 也 有 可 能 会 看 到 一 个 不 
太一 样 的 输出 ， 因 此 理想 情况 下 ， 我 们 应 De yi (建议 是 2.7 版 )、GCC 
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编译 器 ， 以 及 其 他 操作 系统 的 细部 安排 。 当 然 ， 我 们 知道 Python 目前 最 新 的 版 本 是 3.0 以 

上 ， 但 对 于 其 他 任意 的 开源 系统 来 说 ， 我 们 应 该 保守 地 选择 一 个 更 稳定 的 版 本 ， 而 不 是 贸 

然 跳 到 最 新 版 本 。 如 果 你 已 经 将 项 目 迁 移 到 Python 3.0+, 那 就 务必 参阅 下 面 链接 中 的 说 明 ， 

以 便 了 解 那 些 被 添加 的 新 特性 : https://docs.python.org/3/whatsnew/3.4.html。 

对 于 基于 UNIX 的 系统 ，Python 属于 默认 程序 无须 任何 设置 )。 而 Windows 用 户 则 

需要 通过 设置 相关 路 径 来 使 Python 进入 正常 工作 状态 。 你 可 以 通过 以 下 方式 来 确认 NLTK 
是 否 已 经 被 正确 安装 : 
























































































































































>>>import nltk 
>>>print "Python and NLTK installed successfully" 
Python and NLTK installed successfully 


好 了 ， 我 们 可 以 准备 出 发 了 ! 


1.2 先 从 Python 开始 吧 











虽然 ,我们 在 这 里 并 不 打算 对 Python 进行 任何 太 过 深入 的 探讨 ， 但 带 你 快速 浏览 一 
Python 的 基础 要 点 还 是 很 有 必要 的 。 当 然 ， 为 了 观众 着 想 ， 我 们 最 好 将 这 次 基础 人 
回顾 之 旅 控制 在 5 分 钟 之 内 。 在 此 期 间 ， 我 们 将 会 讨 人 到 数据 结构 的 基本 知识， 一 些 第 用 
函数 ， 以 及 在 接 下 来 几 节 中 将 会 用 到 的 Python 通用 结构 。 




































































二 
Ny 
阔 
下 
UL 











提示 : 
我 强烈 推荐 你 花 两 个 小 时 看 一 下 题 为 《Google Python 
” ”class》 的 参考 资料 : https://developers.google.com/edu/ 
python， 那 对 我 们 来 说 应 该 算是 个 不 错 的 开始 。 当然， 你 
还 可 以 通过 Python 的 官方 网 站 https:/www.python.org/ 来 
获取 更 多 的 教程 及 其 他 相关 资源 。 


1.2.1 列表 


列表 (Uist) 是 Python 中 最 常用 的 数据 结构 之 一 。 它 们 基本 上 相当 于 其 他 编程 语言 中 的 
数组 。 下 面 ， 就 让 我 们 先 从 Python 列表 所 提供 的 最 重要 的 那些 功能 开始 吧 。 


我 们 可 以 在 Python 控制 台中 进行 如 下 尝试 : 




























































































>>> lst=[1,2,3,4] 
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>>> # mostly like arrays in typical languages 
>>>print lst 
[1, 2, 3, 4] 




















当然 ，Python 列表 也 可 以 用 更 为 灵活 的 索引 来 进行 访问 。 下 面 再 来 看 一 个 例子 ; 





>>>print 'First element' +lst[0] 


在 这 里 ， 你 会 得 到 如 下 所 示 的 错误 信息 : 


TypeError: cannot concatenate 'str' and 'int' objects 




































































这 是 因为 Python 是 一 种 解释 型 编程 语言 ， 它 会 在 对 其 表达 式 进 行 计 算 的 同时 检查 其 中 




















的 变量 类 型 。 我 们 在 声明 这 些 变量 时 无 需 对 其 进行 初始 化 和 类 型 声明 。 在 这 里 ， 我 们 的 列 







































































表 中 所 包含 的 是 一 些 整数 对 象 ， 它 们 不 能 被 直接 关联 到 这 里 的 print 函数 上 ， 后 者 只 能 接受 
一 个 String 对 象 。 出 于 这 个 原因 ， 我 们 需要 将 该 列表 元 素 转换 成 字符 串 。 这 个 过 程 也 称 为 
类 型 转换 。 

>>>print 'First element :' +str(lst[0]) 

>>>print 'last element :' +str(lst[-1]) 

>>>print 'first three elements :' +str(lst[0:2]) 


>>>print 'last three elements :'+str(lst[-3:]) 
First element :1 

last element :4 

first three elements :[1, 2,3] 

last three elements :[2, 3, 4] 


1.2.2 自助 功能 


如 helpO0 和 dir(lst)。 


属 ， 


以 

















如 果 你 想 要 详细 了 解 Python 中 各 种 数据 类 型 和 函数 ， 最 好 的 方法 就 是 调用 其 帮助 函数 ， 














其 中 ， 我 们 可 以 通过 dir 〈 某 Python 对 象 ) 命令 来 列 出 指定 Python 对 象 中 所 有 给 定 的 









































生 。 例 如 ， 如 果 我 们 像 下 面 这 样 将 一 个 列表 对 象 传 递 给 该 函数 ， 它 就 会 列 出 所 有 我 们 可 
用 列表 来 做 的 很 酷 的 事情 ; 
>>>dQqir (1Lst) 
>>>' ，'" .join(diz (1Lst) ) 
'_add 。 class 和 contains , delattr , delitem , 
delslice 六 doc eq format ge getattribute 
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/ _getitem , gets1Lice i gt ; hash 2 iadd 2 imul 

A init iter 7 le 2 len 1t ; mul ne 7 
_new  ， _ reduce reduce ex 7 repr 和 reversed , rmul 

/ _setattr , setitem , _ setslice sizeof str 2 
subclasshook , append , count , extend , index , insert , pop , remove 


, reverse , sort' 




















而 通过 heljp“《〈 某 Python 对象) 命令， 我 们 可 以 得 到 给 定 Python 对 象 的 详细 文档 ， 以 
及 该 对 象 的 一 些 具体 用 例 ， 如 : 


























>>>help (lst.index) 
Help on built-in function index: 
index(...) 
L.index (value, [start, [stop]]) -> integer -- return first index of value. 
This function raises a ValueError if the value is not present. 





























基本 上 来 说 ， 由 于 help 和 dir 这 两 个 函数 可 以 运用 在 任何 Python 数据 类 型 之 上 ， 因 此 
它们 是 一 个 很 好 的 学 习 函 数 和 其 他 对 象 细 节 的 方法 。 而 且 ， 它 还 提供 了 一 些 基 本 的 使 用 范 
例 ， 这 在 多 数 情况 下 都 是 非常 有 用 的 。 

Python 的 字符 串 类 型 与 其 他 语言 非常 类 似 ， 但 字符 串 操 作 同 时 也 是 Python 最 主要 的 特 
性 之 一 。 即 在 Python 中 ， 处 理 字 符 串 会 是 一 件 非常 轻松 的 工作 。 即 使 是 那些 非常 简单 的 操 
作 ， 例 如 字符 串 的 切割 ， 你 也 会 看 到 相 较 于 Java 和 C 的 大 费 周章 ， 它 们 在 Python 中 是 多 
么 得 简单 明了 。 
通过 之 前 用 过 的 help 函数 ， 我 们 可 以 得 到 任何 Python 对 象 及 函数 的 帮助 信息 。 下 面 ， 
我 们 就 再 来 看 一 些 对 字符 串 这 种 数据 类 型 来 说 最 为 常见 的 操作 。 

。 Split0: 一 个 能 基于 某 些 分 隔 符 来 对 字符 串 进 行 切割 的 方法 。 如 果 你 没有 为 其 提供 
具体 参数 ， 它 就 会 默认 空格 为 其 分 隔 符 。 







































































































































































































































































汉中 
~ 
es 








>>> mystring="Monty Python ! And the holy Grail ! \n" 
>>> print mystring.split() 
['Monty', 'Python', '!', 'and', 'the', 'holy', 'Grail', '!'] 














DA 


' 








。 strip0: 一 个 可 以 从 字符 串 中 删除 其 尾随 空白 符 〈 如 An、'NnNr) 的 方法 。 








>>> Print mystring.strip() 
>>>Monty Python ! and the holy Grail |! 


你 会 注意 到 "nm' 字 符 被 剥离 了 。 男 外 ， 你 也 可 以 通过 rstrip0 和 lstrip0) 来 选择 是 剥离 字符 
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串 左边 还 是 右边 的 尾部 空白 符 。 


。 upperO/lower0: 我 们 可 以 用 这 些 方法 来 改变 字符 串 ! 














>>> print mystring .upper () 
>>>MONTY PYTHON !AND THE HOLY GRAIL |! 




















。 replace(): 该 方法 可 用 于 替换 目标 字符 串 中 的 某 个 子 串 














>>> print mystring.replace('!','''''') 
>>> Monty Python and the holy Grail 


字母 的 大 小 写 。 


o 





























当然 ， 字 符 串 类 型 的 函数 可 远 不 止 这 些 。 这 里 只 是 讨论 了 

















其 中 最 常用 的 一 些 而 已 。 








提示 : 


你 可 以 通过 下 面 的 链接 了 解 更 多 字符 串 函 数 及 其 用 例 : 
https://docs.python.org/2/library/string. 


tm. 


1.2.3 正则 表达 式 





对 NLP 爱好 者 来 说 , 正则 表达 式 是 另 一 个 非常 重要 的 技能 。 正则 表达 式 (regular expression ) 
是 一 种 能 对 字符 串 进 行 有 效 匹配 的 模式 。 我 们 会 大 量 使 用 这 种 模式 ， 以 求 从 大 量 凌乱 的 文 
本 数据 中 提取 出 有 意义 的 信息 。 下面, 我 们 就 来 整体 浏览 一 下 你 将 会 用 到 哪些 正则 表达 式 。 






























































其 实 ， 我 这 一 生 至 今 所 用 过 的 正则 表达 式 无 非 也 就 是 以 下 这 些 。 


























e。 《句点 ): 该 表达 式 用 于 匹配 除 换 行 符 \n 外 的 任意 单字 符 。 
。 \W: 该 表达 式 用 于 匹配 某 一 字符 或 数字 ， 相 当 于 [a-z A-Z 0-9]。 





























。 \W【〔 大 写 W): 该 表达 式 用 于 匹配 任意 非 单 词性 字符 。 


























ba 




















。 \s 《小写 s): 用 于 匹配 任意 单个 空白 字符 , 包括 换行 、 返 回 、 制 表 等 ,相当 于 [tfl。 














。 \S: 该 表达 式 用 于 匹配 单个 任意 非 空白 字符 。 
达 式 用 于 匹配 制 表 符 。 

达 式 用 于 匹配 换行 符 。 

。 \r: 该 表达 用 于 匹配 返回 符 。 

。 \d: 该 表达 式 用 于 匹配 十 进 制 数字 ， 即 [0-9] 。 

















UT 
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后 
NN 
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1.2 先 从 Python 开始 吧 9 





。 ^: 该 表达 式 用 于 匹配 相关 字符 串 的 开始 位 置 。 
。 $; 该 表达 式 用 于 匹配 相关 字符 串 的 结尾 位 置 。 
。 \ 该 表达 式 用 来 抵消 特殊 字符 的 特殊 性 。 如 要 匹配 $ 符 号 ， 就 在 它 前 面 加 上 \。 
























































下 面 ， 我 们 来 看 一 个 用 于 查找 东西 的 例子 。 在 这 里 ，myString 是 要 进行 相关 模式 查找 
的 目标 字符 串 对 象 。 字 符 串 的 子 串 搜索 是 re 模块 中 最 常见 的 用 例 之 一 。 我 们 可 以 来 看 看 它 


























是 如 何 实现 的 : 


>>># We have to import re module to use regular expression 
>>>import re 
>>>if re.search('Python',mystring): 


>>> print "We found Python " 
>>>else: 
>>> print "NO " 





只 要 我 们 执行 了 以 上 代码 ， 就 会 立即 收 到 如 下 信息 : 





We found Python 


























我 们 还 可 以 使 用 更 多 正则 表达 式 模式 来 进行 查找 。 例 如 ，findall0 就 是 一 个 常 被 用 了 














六 对 






































字符 串 进 行 全 部 模式 查找 的 函数 。 它 会 按照 给 定 模 式 对 字符 串 进行 查找 ， 并 列 出 其 中 所 有 




















匹配 的 对 象 ; 





>>>import re 
>>>print re.findall('!',mystring) 
Lt "1'] 





如 你 所 见 ，myString 中 存在 着 两 个 “!” 实 例 ，findall 返回 了 这 两 个 对 象 的 列表 。 
1.2.4 ”字典 




















字典 〈dictionary) 也 是 最 常用 到 的 一 种 数据 结构 。 在 其 他 编程 语言 中 有 时 也 被 称 为 关 












































联 数组 /存储 。 字 典 是 一 种 键 值 索引 型 的 数据 结构 , 其 索引 键 可 以 是 任意 一 种 不 可 变 的 类 
例如 字符 串 和 数字 都 经 常 被 用 来 充当 索引 键 。 






























































型 


区 


字典 是 被 多 种 编程 语言 广泛 用 于 实现 诸多 算法 的 一 种 非常 便利 的 数据 结构 。 而 且 ， 
























































Python 的 字典 结构 还 是 所 有 的 这 些 编程 语言 











最 为 优雅 的 哈 希 表 实 现 之 一 。 哈 希 表 是 












































种 





操作 起 来 非常 容易 的 字典 结构 ， 其 优势 在 于 ， 你 只 需 通过 寥寥 几 段 代码 就 可 以 用 它 建立 起 









































一 个 非常 复杂 的 数据 结构 ， 而 同样 的 任务 在 其 他 语言 中 可 能 就 需要 花费 更 多 的 时 间 、 写 更 
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pA 


多 的 代码 。 很 显然 ， 程 序 员 们 应 该 花 更 多 时 间 在 算法 上 ， 而 不 是 数据 结构 本 身 。 

下 面 ， 我 打算 用 字典 结构 中 常见 的 一 个 用 例 来 获取 某 段 既定 文本 中 各 单词 的 出 现 频率 
分 布 。 你 可 以 看 到 ， 只 需 短 短 儿 行 代码 ， 我 们 就 取得 了 各 单词 在 文本 中 的 出 现 频率 。 如 果 
你 再 用 任意 其 他 语言 来 尝试 一 下 相同 的 任务 ， 就 会 明白 Python 是 何等 得 奇妙 : 

















































































































>>># declare a dictionary 
>>>word freq={} 
>>>for tok in string.split(): 


>>> if tok in word freq: 

>>> word freq [tok]+=1 

>>> else: 

>>> word freq [tok]=1 

>>>print word freq 

{'!'': 2, 'and': 1, 'holy': 1, 'Python': 1, 'Grail': 1, 'the': 1, 'Monty': 
1} 


1.2.5 ”编号 函数 


和 其 他 编程 语言 一 样 ，Python 也 有 自己 的 函数 编写 方式 。 在 Python 中 ， 函 数 的 定义 通 
常会 从 关键 字 def 开始 ， 后 面 紧 跟 着 相应 的 函数 名 和 括号 0。 而 所 有 类 似 于 其 他 编程 语言 中 
的 参数 和 参数 类 型 的 声明 都 会 被 放 在 该 括号 内 。 其 实际 代码 部 分 将 会 从 冒号 (:) 后 面 开 始 ， 
代码 的 初始 行 通常 会 是 一 个 文档 字符 串 〈 注 释 )， 接 着 是 代码 的 主体 部 分 ， 最 后 我 们 会 以 一 
个 retur 语句 来 结束 整个 函数 。 下 面 来 看 个 实例 ， 这 个 函数 实例 wordfreq 的 开头 是 关键 字 
def， 它 没有 参数 ， 最 后 以 一 个 return 语句 作为 结束 。” 































































































>>>import sys 
>>>def wordfreq (mystring): 


>>> ee 

>>> Function to generated the frequency distribution of the given text 
>>> Re 

>>> print mystring 

>>> word freq={} 

>>> for tok in mystring.split(): 
>>> if tok in word freq: 

>>> word freq [tok]+=1 
>>> else: 

>>> word freq [tok]=1 
>>> print word freq 


























@ 译 者 注 : 原文 如 此 ， 但 正如 你 所 见 ， 代 码 中 并 没有 return 语句 。 在 没有 返回 值 的 情况 下 ，python 的 函数 是 不 必 以 return 结束 的 。 
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1.3 向 NN 


>>>def main() : 





>>> str="This is my fist python program" 
>>> wordfreq (str) 

>>>if name == ' main ': 

>>> main() 

















如 你 所 见 ， 其 代码 主体 与 上 一 节 中 所 写 的 完全 相同 ， 只 不 过 我 们 这 回 以 函数 的 形式 使 
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这 段 代码 具备 了 可 重用 性 和 可 读 性 。 当 然 ， 用 解释 器 风格 来 编写 Python 代码 的 做 法 也 很 常 









































见 ， 但 从 大 型 程序 的 编写 实践 来 说 ， 使 用 函数 /类 和 某 种 成 熟 的 编程 范式 是 一 个 更 佳 的 做 法 。 而 
且 ， 我 们 也 希望 用 户 能 早日 编写 并 运行 自己 的 第 一 个 Python 程序 。 对 此 ， 你 需要 按照 以 下 步 又 

































































来 进行 。 
1. 用 你 喜欢 的 文本 编辑 器 创建 一 个 空 的 Python 文件 mywordfreq.py 
2， 将 上 面 的 代码 写 入 或 复制 到 该 文件 中 。 
3， 在 操作 系统 中 打开 命令 行 终端 。 


4. 在 该 终端 中 执行 以 下 命令 : 



































$ Python mywordfreq,py "This is my fist Python program !!". 


5. 最后， 你 应 该 会 得 到 以 下 输出 : 


{'This': 1, 'is': 1, 'python': 1, 'fist': 1, 'program': 1, 




















'my':1}。 


现在 ， 相 信 你 对 Python 所 提供 的 一 些 常 见 的 数据 结构 有 了 一 个 非常 基本 的 了 解 。 你 已 





























经 可 以 编写 出 一 个 完整 的 Python 程序 ， 并 成 功 地 执行 了 它 。 在 我 看 来 ， 这 些 
知识 已 经 足以 让 你 面 对 本 书 最 初 这 几 音 的 挑战 了 。 


旦 
XE 小 ， 




















ou 


Al 





你 还 可 以 通过 下 面 网 站 中 的 一 些 Python 教程 了 解 更 多 相 
关 的 Python 命令 : 
https://wiki.python.org/moin/BeginnersGuide., 





1.3 辣 NLTK 迈进 








Python 引导 


尽管 在 这 里 ， 我 们 并 不 打算 深入 探讨 自然 语言 处 理 理论 ， 但 也 会 尽快 让 你 实际 接触 一 
下 NLTK。 因 此 ， 我 打算 先 介 绍 一 些 NLTK 的 基本 用 例 ， 这 是 一 个 很 好 的 机 会 ， 你 可 以 先 






























































为 今后 做 类 似 事情 做 一 些 准备 。 下 面 ， 我 们 会 从 一 个 Python 程序 员 习 惯 的 处 到 
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演示 如 何 用 NLTK 将 该 方式 转换 成 一 个 更 为 高 效 、 可 靠 、 简 洁 的 解决 方案 。 
我 们 先 来 看 一 个 纯 文本 分 析 的 例子 。 这 个 例子 是 我 们 要 从 Python 官方 主页 上 摘 取 部 分 内 容 。 




















>>>import urllib2 

>>># urllib2 is use to download the html content of the web link 
>>>response = urllib2 .urlopen('http://python.org/') 

>>># You can read the entire content of a file using read() method 
>>>html = response.read() 

>>>print len (html) 

47020 





目前 , 我们 还 没有 得 到 任何 关于 该 URL 所 讨论 话题 的 线索 ， 所 以 接 下 来 ,我们 要 先 做 
一 次 探索 性 数据 分 析 EDA)。 通 常 对 于 一 段 文本 域 而 言 ，EDA 可 能 包含 了 多 重 含义 ， 但 
这 里 只 会 涉及 其 中 的 一 个 简单 用 例 ， 即 该 文档 的 主体 术语 类 型 。 主 题 是 什么 ? 它们 的 出 现 
频率 如 何 ? 整个 分 析 过 程 还 会 或 多 或 少 地 涉及 一 些 预 处 理 层 面 的 步骤 。 我 们 会 试 着 先 用 纯 
Python 的 方式 来 实现 它 ， 然 后 用 NLTK 再 将 其 实现 一 次 。 

我 们 先 要 清理 掉 其 中 的 html 标签 。 一 种 可 行 的 做 法 是 只 选 取 其 中 的 标记 ， 包 括 数字 和 
字符 。 如 果 之 前 有 在 工作 中 使 用 过 正则 表达 式 ， 你 应 该 可 以 轻松 地 将 这 些 html 字符 串 转换 
成 一 个 标记 列表 : 



























































































































































>>># Regular expression based split the string 

>>>tokens = [tok for tok in html.split()] 

>>>print "Total no of tokens :"+ str(len(tokens)) 

>>># First 100 tokens 

>>>print tokens[0:100] 

Total no of tokens :2860 

['<'doctype', 'html>', '<!--[if', ']t', 'IE', '7]>', '<html', 'class="no- 
js', 'ie6', 'lt-ie7', 'lt-ie8', 'lt-ie9">', '<![endif]-->', '<!--[if', 
'IE', '7]>', '<html', 'class="no-js', 'ie7', 'lt-ie8', 'lt-ie9">', 
'<!l[endif]-->', ''type="text/css"', 'media="not', 'print,', 'braille,' 


| 


如 你 所 见 ， 上 面 列 出 了 我 们 在 处 理 文本 内 容 时 用 不 到 的 HTML 标签 和 其 他 多 余 字 符 。 
当然 ， 这 个 任务 还 有 个 更 为 简洁 的 版 本 ; 


>>>import re 

>>># using the split function 
>>>#https://docs.python.org/2/library/re.html 
>>>tokens = re.split('\W+',html) 

>>>print len (tokens) 
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>>>print tokens[0:100] 

5787 

['', 'doctype', ‘'html', 'if', 'lt', 'IE', '7', 'html', 'class', 'no', 
'js', 'ie6', ']lt', 'ie7', 'lt', 'ie8', 'lt', 'ie9', 'endif', 'if', 

TE “html, Class ry "no Js “iely "It, "ie8", tlt'y ~Le9, 
'endif', 'if', 'IE', '8', 'msapplication', 'tooltip', 'content', 'The', 
'official', 'home', 'of', 'the', 'Python', 'Programming', 'Language', 
'meta', 'name', 'apple' ...] 











这 样 看 上 去 已 经 简洁 多 了 吧 ? 但 其 实 它 还 可 以 更 简洁 一 点 。 在 这 里 , 我 们 所 做 的 努力 是 尽 
可 能 地 去 除 干扰 ， 但 那些 被 清理 的 HTML 标记 还 是 会 如 十 后 春 算 般 地 冒 出 来 ， 而 且 我 们 可 能 
也 想 以 单词 长 度 为 标准 ， 删 除 某 一 特定 长 度 的 单词 一 一 如 说 移 除 像 7、8 这 样 的 元 素 ， 因 为 在 
目前 情况 下 ， 这 些 都 只 是 干扰 词 。 现 在 ， 我 们 要 做 的 不 是 用 NLIK 来 重复 相同 的 任务 ， 完 成 这 
些 预 处 理 步 又。 因为 所 有 的 清理 工作 都 可 以 通过 调用 clean_html0 函 数 "来 完成 : 


>>>import nltk 

>>># http://www.nltk.org/api/nltk.html#nltk .util.clean html 

>>>clean = nltk.clean html (htm]l) 

>>># clean will have entire string removing all the html noise 

>>>tokens = [tok for tok in clean.split()] 

>>>print tokens[:100] 

['Welcome', 'to', 'Python.org', 'Skip', 'to', 'content', '&#9660;', 
'Close', 'Python', 'PSF', 'Docs', 'PyPI', 'Jobs', 'Community', 'é&#9650;', 
'The', 'Python', 'Network', '&equiv;', 'Menu', 'Arts', 'Business' ...] 






































































































































人 


很 酷 吧 ? 而且， 这 无 疑 让 我 们 的 代码 更 简洁 易 行 了 。 
下 面 再 来 看 看 如 何 获 得 这 些 术语 的 频率 分 布 。 当 然 ， 我 们 还 是 要 从 纯 Python 的 方式 做 
起 ， 之 后 再 告诉 你 NLTK 的 方式 。 


>>>import operator 
>>>freq dis={} 
>>>for tok in tokens: 




































































>>> if tok in freq dis: 
>>> freq dis[tok]+=1 
>>> else: 

>>> freq dis[tok]=1 














@ 译 者 注 : 最 新 版 的 NLTK 已 经 取消 了 这 个 函数 ， 并 鼓励 用 户 使 用 BeautifulSoup 的 get_textO0 函 数 ， 因 此 对 于 : 
clean = nltk.clean html (html) 
我 们 应 该 将 其 改 成 (当然 ， 在 此 之 前 还 必须 导入 bs4 库 中 的 BeautifulSoup 模块 ): 


soup = BeautifulSoup (html, "lxml") 















































clean = soup.get text() 
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>>># We want to sort this dictionary on values ( freq in this case ) 
>>>sorted freq dist= sorted (freq dis.items(), key=operator.itemgetter(1), 
reverse=True) 

>>>print sorted freq dist[:25] 

[('Python', 55), ('>>>', 23), ('and', 21), ('to', 18), (',', 18), ('the', 
14), ('of', 13), ('for', 12), ('a', 11), ('Events', 11), ('News', 11), 
('is', 10), ('2014-', 10), ('More', 9), ('#', 9), ('3', 9), ('=', 8), 
('in', 8), ('with', 8), ('Community', 7), ('The', 7), ('Docs', 6), 
('Software', 6), (':', 6), ('3:', 5), ('that', 5), ('sum', 5)] 














于 目标 是 Python 的 官方 主页 ，Python 和 (>>>) 解释 器 符号 自然 就 成 了 最 常用 的 术 
语 ， 这 也 符合 该 网 站 给 人 的 感觉 。 

当然 ， 这 个 任务 还 有 一 个 更 好 用 、 也 更 有 效 的 方法 ， 即 调用 NLTK 中 的 FreqDist0 函 数 。 
在 此 ， 我 们 可 以 来 看 看 调用 后 前 相同 代码 的 比 对 : 






































>>>import nltk 

>>>Freq dist nltk=nltk.FreqDist (tokens) 

>>>print Freq dist nltk 

>>>for k,v in Freq dist nltk.items(): 

>>> print str(k)+':'+str (v) 

<FreqDist: 'Python': 55, '>>>': 23, 'and': 21, ',': 18, 'to': 18, 'the': 
14, 'of': 13, 'for': 12, 'Events': 11, 'News': 11, ...> 
Python:55 

>>>:23 

and:21 

,:18 

to:18 

the:14 

of:13 

for:12 

Events:11 

News:11 


小 技巧 : 
下 载 示 例 代码 
y 你 在 http://www.packtpub.com 中 登录 你 的 账户 ， 从 中 可 
QN 以 下 载 你 所 购买 的 、 由 Packt 出 版 的 所 有 书籍 的 示例 代 
码 。 如 果 你 在 别处 购 得 此 书 ， 也 可 以 在 http://www. 
packtpub.com/support 上 注册 相关 文件 ,我 们 会 用 E-mail 
将 其 直接 发 送 给 你 。 
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1.3 向 NLTK 迈进 


现在 ， 让 我 们 来 做 一 些 更 时 艇 的 事 。 我 们 来 绘制 这 样 的 一 张 图 ， 如 图 1-2 所 示 。 








>>>Freq dist nltk.plot(50, cumulative=False) 
>>># below is the plot for the frequency distributions 
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在 图 1-2 中 ， 我 们 可 以 看 到 累积 频率 的 即时 增长 ， 在 菜 些 点 上 曲线 会 进入 一 条 长 长 的 尾 
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行 的 那个 例子 中 ， 绘 制 结果 如 图 1-3 所 示 。 





>>>stopwords=[word.strip() .lower() for word in open ("PATH/english.stop. 
txt")] 


>>>clean tokens=[tok for tok in tokens if len(tok.lower())>1 and (tok. 
lower() not in stopwords)] 


>>>Freq dist nltk=nltk.FreqDist(clean tokens) 
>>>Freq dist nltk.plot(50, cumulative=False) 


提示 : 


如 果 想 知道 关于 词 云 的 更 多 信息 ， 请 访问 http:/www. 


wordle.net/advanced., 
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词 ， 这 些 词 有 一 个 专用 术语 : 停 用 词 。 如 the、a、an 这 样 的 词 也 都 属于 停 用 词 。 由 于 冠 
词 、 代 词 在 大 多 数 文档 中 都 是 普遍 存在 的 ， 因 而 对 信息 的 识别 没有 帮助 。 在 大 多 数 NLP 
及 信息 检索 任务 中 ， 人 们 通常 都 会 先 删除 掉 这 些 停 用 词 。 下 面 ， 让 我 们 再 次 回 到 之 前 运 


巴 。 其 中 依然 存在 着 一 些 干扰 ， 有 些 类 似 于 the、of、for 以 及 = 这 样 的 词 都 是 属于 无 用 
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2014 























现在 ,代码 看 起 来 简洁 多 了 吧 ! 在 完成 这 么 多 事后 ， 你 可 以 去 Wordle 网 站 上 将 其 频率 














分 布 以 CSV 形式 显示 出 来 ， 可 以 得 到 如 图 1-4 所 示 词 云图 。 


Gommunity 





1.4 练习 


起 





在 不 同 的 URL 上 尝试 相同 的 练习 。 
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。 并 试 着 绘制 出 相应 的 单词 云 。 











1.5 小 结 























总 而 言 之 ， 本 章 致 力 于 为 自然 语言 处 怪 
读者 在 NLP 领域 ， 以 及 使 用 Python 编程 方面 
与 Python 和 NLP 相关 的 快速 入 门 。 我 们 
另外 ， 我 们 还 通过 几 行 简单 的 代码 给 你 演示 了 NLTK 的 


















































1.5 小 结 17 


领域 提供 一 份 向 要 概括 。 虽 然 ， 本 书 假定 
知识 ， 但 我 们 也 提供 了 一 份 





























安装 了 所 有 在 NLTK 了 














j 到 的 程序 。 




















用 思路 。 我 们 提供 的 是 一 个 了 不 











起 的 词 云 实例 ， 这 是 在 大 量 非 结构 化 文本 上 
分 析 领 域 中 相当 流行 的 一 种 运 月 
让 Python 在 我 们 的 系统 上 
序 。 除 此 之 外 ， 我 也 希望 记 





二 

































































作 。 为 此 ， 你 也 应 ; 
者 能 杀身 感受 一 下 NLTK 库 上 




















的 魅力 ， 自 行 构建 

















行 的 、 涉 及 云 词 的 小 型 应 
满 了 。 











在 接 下 来 的 儿童 中 ,我 们 将 更 
关 的 特性 。 另 外 ， 我 们 还 将 探讨 




















基本 概念 。 
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j 程 序 。 只 要 读者 能 顺利 地 产生 出 云 词 ， 我 们 就 认为 自己 功德 圆 























理 的 一 种 好 方法 ， 同 时 也 是 文本 
NLTK 构建 起 所 需要 的 一 切 ， 并 
了 并 运行 基本 的 Python 程 
一 个 能 实际 运 














为 详细 地 了 解 Python 这 门 语言 ， 及 其 与 处 型 
E 步 又 ， 并 了 解 一 些 与 NLP 相关 的 




















本 的 NLP 预 处 到 








自然 语言 相 


年 本 2 
而 国耻 加 国 玫 型 呈 加 吕 图 史 轴 加 国 陋 作 





在 上 一 章 中 ， 我 们 为 Python 以 及 NLTK 库 的 学 习 开 了 一 个 不 错 的 头 ， 带 你 初步 了 
解 了 一 下 如 何 针对 一 些 文本 资料 进行 一 些 有 意义 的 EDA。 我 们 用 非常 粗糙 和 简单 的 方 
式 将 预 处 理 部 分 的 所 有 工作 都 做 了 一 遍 。 在 本 章 ， 我 们 将 具体 来 讨论 标识 化 处 理 、 词 干 
提取 、 词 形 还 原 〈lemmatization ) 以 及 停 用 词 移 除 等 这 些 预 处 理 步 又 。 这 些 话 题 将 会 涉 
及 NLTK 中 所 有 用 于 处 理 文本 歧义 的 工具 。 届 时 ， 我 们 将 会 讨论 现代 NLP 应 用 中 会 用 
到 的 所 有 预 处 理 步骤 ， 以 及 实现 其 中 某 些 任务 的 不 同方 法 ， 并 说 明 我 们 通常 该 做 什么 、 
不 该 做 什么 。 总 而 言 之 ,我们 会 为 你 提供 关于 这 些 工 具 的 足够 信息 ， 以 便 你 可 以 自行 决 
定 在 自己 的 应 用 程序 中 使 用 怎么 样 的 预 处 理工 具 。 我 们 希望 读者 在 阅读 完 本 章 之 后 ， 可 
以 掌握 以 下 内 容 。 

。 所 有 与 数据 卜 义 相关 的 情况 ， 并 能 运用 NLTK 处 理 它们 。 

。 文本 清理 的 重要 性 以 及 我 们 可 以 用 NLTK 实现 什么 样 的 常见 任务 。 


2. 1 何谓 文本 歧义 






































































































































































































































事实 上 ， 要 想 给 文本 /数据 收 义 这 个 术语 一 个 定义 是 相当 困难 的 。 本 书 将 它 定 义 成 从 原 
生 数 据 中 获取 一 段 机 器 可 读 的 已 格式 化 文本 之 前 所 要 做 的 所 有 预 处 理工 作 ， 以 及 所 有 繁复 
的 任务 。 该 过 程 应 该 涉及 数据 再 加 工 (data munging)、 文 本 清理 、 特 定 预 处 理 、 标 识 化 处 
理 、 词 干 提取 或 词 形 还 原 以 及 停 用 词 移 除 等 操作 。 下 面 我 们 就 先 来 看 一 个 基本 实例 ， 解 析 


一 个 csv 文件 : 























下 


























>>>import csv 
>>>with open('example.csv','rb') as f: 
>>> reader = csv.reader(f,delimiter=',',quotechar="'"') 
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2.1 何谓 文本 歧义 19 


>>> for line in reader : 


>>> print line[1] 





# assuming the second field is the raw sting 























如 你 所 见 ， 上 述 代码 在 试图 对 csv 文件 进行 解析 ， 它 将 会 csv 文件 中 所 有 的 列 元 素 构 
造成 一 个 列表 。 我 们 在 这 操作 过 程 中 可 以 自 定 义 相关 的 分 隔 符 和 引用 符 



































有 符 〈quoting character ) 。 





现在 的 问题 是 ， 这 些 原生 字符 串 会 涉及 上 一 章 中 所 学 到 的 那些 不 同类 型 的 文本 上 收 义 。 而 其 
中 的 关键 是 我 们 要 提供 能 应 付 日 常 csv 文件 的 足够 细节 的 信息 。 























这 些 最 常见 文档 类 型 通常 都 有 一 个 清晰 的 处 理 流程 ， 我 们 可 以 通过 图 2-1 了 解 一 下 。 





































































































数据 源 : CSV HTML XML Databases Json PDF NoSQL 
PYODBC nttp: 
: 各 : HTML 解 析 器 导入 PDFminer jstackover Xlow 
: Python 解析 器  :; 导入 csv https:/code.google.| ”导入 json https://pypi.python. | comquestions/5832 
1 SAX 解 析 器 XML 解析 器 。 | comp/pyodbomwiky orglpypypdfminer/ |534/nasal-db-for- 
i : DOM 解 析 器 GettingStarted python 
原始 文本 一 一 
标记 化 处 理 
文本 清理 
停 用 词 移 除 
词 干 提取 / 词 形 还 原 = 
图 2-1 























在 上 图 中 ,堆栈 的 第 一 层 中 列 出 了 一 些 最 常见 的 数据 源 。 在 大 多 数 情况 下 ， 我 们 过 到 
的 数据 都 属于 这 些 数据 格式 中 的 某 一 个 。 接 下 来 的 这 一 层 是 Python 对 于 这 些 数据 格式 最 常 
见 的 封装 方式 。 例如 在 之 前 的 csv 文件 的 例子 中 , Python 的 csv 模块 是 处 理 csv 文件 最 可 靠 








的 方法 。 通 过 该 模块 ， 我 们 可 以 使 用 各 种 不 同 的 分 离 器 和 引用 符 等 工具 


























NO 





除 此 之 外 ，json 也 是 一 种 常见 的 文件 格式 。 
下 面 来 看 一 个 具体 的 json 实例 : 








{ 


"Array ss [L723rd];y 


"boolean": True, 
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"object": { 
= RR a ed 
}, 
"string": "Hello World" 
} 




















现在 让 我 们 来 处 理 一 下 该 字符 串 ， 其 解析 代码 如 下 : 





>>>import json 

>>>jsonfile = open('example.json') 
>>>data = json.load(jsonfile) 
>>>print datal[l'string'] 

"Hello World" 


























如 你 所 见 ， 这 里 只 是 用 json 模块 加 载 了 一 个 json 文件 。Python 允许 我 们 挑选 相关 原生 
字符 串 的 形式 并 对 其 进行 处 理 。 关 于 其 他 所 有 数据 源 的 更 详细 信息 以 及 Python 中 相关 的 解 
析 工 具 包 ， 请 读者 自行 参考 我 们 上 面 列 出 的 那个 图 表 。 当 然 ， 我 们 在 这 里 只 能 指出 相关 的 


































































































方向 ， 至 于 这 些 工 具 包 的 详细 信息 ， 还 需 读 者 自己 上 网 去 搜索 。 




















































































































所 以 ， 在 我 们 针对 这 些 不 同 的 文档 格式 编写 自己 的 解析 器 之 前 ， 请 再 看 一 下 上 图 第 二 
行 中 所 列 出 的 Python 解析 器 。 当 我 们 获得 某 一 段 原 生字 符 串 时 ， 所 有 相关 的 预 处理 步 又 都 
可 以 被 当 作 是 某 一 种 管道 ， 或 者 还 可 以 选择 性 地 忽略 掉 其 中 的 部 分 内 容 。 下 一 节 ， 我 们 将 





会 具体 讨论 标识 化 处 理 、 词 干 提取 以 及 词 形 还 原 的 相关 细节 。 并 且 ， 我 们 也 会 讨论 一 下 这 





些 应 用 的 各 种 变化 ， 以 及 何 时 适用 于 其 他 场景 。 


提示 : 


人 
请 试 着 用 上 述 图 表 中 所 列 出 的 某 个 Python 模块 连接 任 


意 一 种 数据 库 试 试 。 


2.2 文本 清理 





一 旦 我 们 将 各 种 数据 源 解析 成 了 文本 形式 ， 接 下 来 所 要 面临 的 挑战 就 是 要 使 这 些 原生 














数据 体现 出 它们 的 意义 。 文 本 清理 就 泛 指 针对 文本 所 做 的 绝 大 部 分 清 
依赖 关系 、 性 能 的 解析 和 外 部 噪声 等 。 从 这 个 意义 上 来 说 ， 这 些 工作 条 





























与 相关 数据 源 的 























自然 语言 处 理 简 介 中 调用 html_ clean0 对 HTML 文档 进行 清理 的 工作 是 一 样 的 。 当 然 还 有 
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[我 们 在 第 1 章 一 一 
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其 他 情况 ， 如 果 我 们 要 解析 PDF 文件 ， 可 能 就 需要 清理 掉 一 些 不 必要 的 干扰 字符 ， 移 除非 
ASCI 字符 等 。 总 之 在 继续 下 一 步骤 之 前 ， 我 们 需要 做 一 些 清理 以 获得 一 个 可 以 被 进一步 
处 理 的 干净 文本 。 而 对 于 像 XML 这 样 的 数据 源 ， 我 们 可 能 就 只 需要 关注 一 些 特定 的 树 元 
素 即 可 。 对 于 数据 库 ， 我 们 则 有 各 种 可 操作 的 分 离 器 ， 而 且 有 时 我 们 也 只 需要 关注 一 些 特 
定 的 列 。 总 而 言 之 ， 对 于 所 有 致力 于 净化 文本 、 清 理 掉 文 本 周围 所 有 可 能 干扰 的 工作 ， 我 
们 称 之 为 文本 清理 。 数 据 再 加 工 〈data munging)、 文 本 清理 与 数据 歧义 这 几 个 术语 之 间 3 
没有 清晰 的 界限 ， 它 们 在 类 似 的 语 境 中 可 以 相互 交替 使 用 。 在 接 下 来 的 几 节 中 ， 我 们 将 会 
具体 讨论 一 些 在 任何 NLP 任务 中 都 极为 常见 的 预 处 理 步 又 。 



































































































































































































































UU 





2.3 语句 分 离 器 


























在 某 些 NLP 应 用 中 ， 我 们 常常 需要 将 一 大 段 原生 文本 分 割 成 一 系列 的 语句 ， 以 便 从 ， 
获取 更 多 有 意义 的 信息 。 直 观 地 说 ， 就 是 让 语句 成 为 一 个 可 用 的 交流 单元 。 当 然 ， 要 想 在 计 
算 机 上 实现 这 个 任务 可 比 它 看 上 去 要 困难 得 多 了 。 典 型 的 语句 分 离 器 既 可 能 是 〈.) “这 样 简 
单 的 字符 串 分 割 符 ， 也 有 可 能 是 某 种 预 置 分 类 器 这 样 复杂 的 语句 边界 标识 ; 



























































>>>inputstring = ' This is an example sent. The sentence splitter will split 
on sent markers. Ohh really !!' 

>>>from nltk.tokenize import sent tokenize 

>>>all sent = sent tokenize (inputstring) 

>>>print all sent 

[' This is an example sent', 'The sentence splitter will split on 
markers.','Ohh really !'!''] 


























在 这 里 ,我 们 正 试 着 将 原生 文本 字符 串 分 割 到 一 个 语句 列表 中 。 用 的 是 预 处 理 函 数 
sent_tokenize()， 这 是 一 个 内 置 在 NLTK 库 中 的 语句 边界 检测 算法 。 当 然 ， 如 果 我 们 在 应 用 
中 需要 自 定 义 一 个 语句 分 离 器 的 话 ， 也 可 以 用 以 下 方式 来 训练 出 属于 自己 的 语句 分 离 器 : 





























T 


















































>>>import niltk.tokenize.punkt 
>>>tokenizer = nltk.tokenize.punkt.PunktSentenceTokenizer () 






































该 预 置 语句 分 离 器 可 以 支持 17 种 语言 。 我 们 只 需要 为 其 指定 相关 的 配方 对 象 即 可 。 根 
据 我 的 经 验 ， 这 里 只 要 提供 一 个 相关 种 类 的 文本 语 料 就 已 经 足够 了 ， 而 且 实际 上 也 很 少 有 
机 会 需要 我 们 自己 来 构建 这 些 内 容 。 




































































人 @ 译 者 注 : 由 于 原作 是 基于 英文 环境 来 说 明 的 ， 所 以 本 书 的 文本 处 理应 该 以 英文 标点 为 准 。 
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2.4 标识 化 处 理 


机 器 所 要 理解 的 最 小 处 理 单位 是 单词 ( 即 分 词 )。 所 以 除了 标识 化 处 





























A 





晶 之 外 ， 我 们 不 宜 

















再 对 这 些 文本 字符 串 做 更 进一步 的 处 理 。 这 里 所 谓 的 标识 化 ， 实 际 上 就 是 一 个 将 原生 字符 















































串 分 割 成 一 系列 有 意义 的 分 词 。 标 识 化 处 理 的 复杂 性 因 具 体 的 NLP 应 用 而 异 ， 当 然 目 标语 
言 本 身 的 复杂 性 也 会 带 来 相关 的 变化 。 例 如 在 英语 中 ， 我 们 可 以 通过 正则 表达 式 这 样 简 单 

























































































的 方式 来 选取 纯 单 词 内 容 和 数字 。 但 在 中 文 和 日 文中 ， 这 会 成 为 一 个 非常 复杂 的 任务 。 








>>>s = "Hi Everyone ! hola gr8" # simplest tokenizer 
>>>print s.split() 
['Hi', 'Everyone', '!', 'hola', 'gr8'] 


>>>from nltk. 


tokenize import word tokenize 


>>>word tokenize(s) 


['Hi', 'Everyone', '!', 'hola', 'gr8'] 


>>>from nltk.tokenize import regexp tokenize, wordpunct tokenize, blankline 


tokenize 


>>>regexp_ tokenize(s, pattern='\w+') 


['Hi', 'Everyone', 'hola', 'gr8'] 
>>>regexp tokenize(s, pattern='\d+') 


['8'] 


>>>wordpunct tokenize(s) 


['Hi', Wig 1 


Everyone', '!!', 'hola', 'gr8'] 


>>>blankline tokenize(s) 
['Hi, Everyone !! hola gr8'] 





在 上 述 代 码 中 ， 

















我 们 用 到 了 各 种 标识 器 (tokenizer)。 我 们 从 最 简单 的 Python 字符 















































串 类 型 的 splitO 方 法 开始 。 这 是 一 个 最 基本 的 标识 器 ， 使 用 空白 符 来 执行 单词 分 割 。 当 然 ， 


splitO 方 法 本 身 也 可 


Eee 

















里 方法 。 当 然 ，wor 
安装 NLTK 数据 时 








门 其 实 很 难 找 出 s.split0 与 word_ tokenizeO 这 两 个 方法 之 间 的 差异 。 
word tokenize() 方 法 则 是 一 个 通用 的 、 更 为 强大 的 、 可 面向 所 有 类 型 语料库 的 标识 化 处 















































以 被 配置 成 一 些 较为 复杂 的 标识 化 处 理 过 程 。 因 此 在 上 面 的 例子 中 , 我 




































































d tokenize0 是 NLTK 库 的 内 置 方法 。 如 果 你 不 能 访问 它 ， 那 就 说 明 在 












































上 了 些 差错 。 请 参照 第 1 章 “ 自 然 语言 处 理 简介 ”中 的 内 容 来 安装 它 。 




















通常 情况 下 ， 我 们 有 两 个 最 常用 的 标识 器 。 第 一 种 是 word tokenize0， 这 是 我 们 的 默 


























认 选 择 ， 基 本 上 能 应 付 绝 大 多 数 的 情况 。 另 一 选择 是 regex_tokenize0， 这 是 一 个 为 用 户 特 


























定 需求 设计 的 、 自 定义 程度 更 高 的 标识 器 。 其 他 的 大 部 分 标识 器 都 可 以 通过 继承 正则 表达 


式 的 标识 器 来 实现 。 




















我 们 也 可 以 利用 某 种 不 同 的 横 式 来 构建 一 个 非常 具体 的 标识 器 。 如 在 
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上 述 代码 的 第 8 行 ， 我 们 也 可 以 基于 正则 表达 式 的 标识 器 分 割 出 相同 的 字符 串 。 你 可 以 用 \w+ 

































































这 个 正则 表达 式 ， 它 会 从 目标 字符 串 中 分 隔 出 所 有 我 们 所 需要 的 单词 和 数字 ， 其 他 语义 符 
































号 也 可 以 通过 类 似 的 分 割 器 来 进行 分 离 ， 如 对 于 上 述 代码 的 第 10 行 ， 我 们 可 以 使 用 d+ 这 
个 正则 表达 式 。 这 样 我 们 就 能 从 目标 字符 串 中 提取 出 纯 数字 内 容 。 


现在 ， 你 能 为 提取 大 小 写 单词 、 数 字 和 金钱 符号 构建 专用 的 正则 表达 式 标识 器 吗 ? 
提示 : 只 需 参 考 之 前 正则 表达 式 的 查询 模式 来 使 用 regex_tokenize() 即 可 。 


























小 技巧 : 





你 也 可 以 去 http://text-processing.com/demo 这 个 网 站 找 


一 些 演示 项 目 来 参考 一 下 。 


2.5 词 干 提取 














所 谓词 干 提取 (stemming)， 顾 名 思 义 就 是 一 个 修剪 枝叶 的 过 程 。 这 是 很 有 效 的 方法 ， 











通过 运用 一 些 基 本 规则 ， 我 们 可 以 在 修剪 枝叶 的 过 程 中 得 到 























所 有 的 分 词 。 词 干 提取 是 一 种 
较为 粗糙 的 规则 处 理 过 程 ， 我 们 希望 用 它 来 取得 相关 分 词 的 各 种 变化 。 例 如 eat 这 个 单词 
就 会 有 像 eating、eaten、eats 等 变化 。 在 某 些 应 用 中 ， 我 们 是 没有 必要 区 分 eat 和 eaten 之 


















































间 的 区 别 的 ， 所 以 通常 会 用 词 干 提取 的 方式 将 这 种 语法 上 的 变化 归结 为 相同 的 词根 。 由 此 
可 以 看 出 ， 我 们 之 所 以 会 用 词 干 提取 方法 ， 就 是 因为 它 的 简单 ， 而 对 于 更 复杂 的 语言 案 
例 或 更 复杂 的 NLP 任务 ， 我 们 就 必须 要 改 用 词 形 还 原 (lemmatization〉 的 方法 了 。 词 形 
还 原 是 一 种 更 为 健全 、 也 更 有 条 理 的 方法 ， 以 便 用 于 应 对 相关 词根 的 各 种 语法 上 的 变化 。 













































































下 面 ， 我 们 就 来 看 一 段 词 干 提取 的 具体 过 程 : 




















>>>from nltk.stem import PorterStemmer # import Porter stemmer 
>>>from nltk.stem.lancaster import LancasterStemmer 


>>>from nltk.stem.Snowball import SnowballStemmer 


>>>pst = PorterStemmer () # create obj of the PorterStemmer 
>>>lst = LancasterStemmer() # create obj of LancasterStemmer 


>>>1st.stem("eating") 
eat 

>>>pst. stem("shopping") 
shop 


一 个 拥有 基本 规则 的 词 干 提 取 器 ， 在 像 移 除 -s/es、-ing 或 -ed 这 类 事情 上 都 可 以 达到 70% 以 
上 的 精确 度 ， 而 Porter 词 干 提取 器 使 用 了 更 多 的 规则 ， 自 然 在 执行 上 会 得 到 很 不 错 的 精确 度 。 
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我 们 创建 了 不 同 的 词 干 提取 器 对 象 ， 并 在 相关 字符 串 上 调用 了 stem0) 方 法 。 结 果 如 你 
所 见 ， 当 用 一 个 简单 实例 来 查看 时 ， 它 们 之 间 并 没有 太 大 的 差别 ， 但 当 多 种 词 干 提 取 算 法 
介入 时 ， 就 会 看 到 它们 在 精准 度 和 性 能 上 的 差异 了 。 关 于 这 方面 的 更 多 细节 ， 你 可 以 去 看 
看 http://www.nltk. org/api/nltk.stem.html 页 面 上 的 相关 信息 。 通 常情 况 下 ， 我 们 使 用 的 是 
Porter 词 干 提取 器 , 如果 是 在 英语 环境 中 工作 , 这 个 提取 器 已 经 够 用 了 。 当然 , 还 有 Snowball 
提取 器 这 一 整个 提取 器 家 族 ， 可 分 别 用 于 处 理 荷 兰 语 、 英 语 、 法 语 、 德 语 、 意 大 利 语 、 和 葡 
菊 牙 语 、 罗 马 尼 亚 语 和 俄语 等 语言 。 特 别 地 ， 我 也 曾经 遇 到 过 可 用 来 处 理 印 地 文 的 轻 量 级 
词 干 提取 器: http:/research.variancia.comy/hindi stemmer。 


































































































































































































小 技巧 : 

我 们 会 建议 那些 希望 对 词 干 提取 进行 更 深入 研究 的 人 去 

看 看 关于 所 有 词 干 提取 器 的 相关 研究 http://en.wikipedia. 

org/wiki/Stemming . 

但 是 ， 对 大 多 数 用 户 而 言 ，Porter 和 Snowball 这 两 种 

词 干 提取 器 就 足以 应 付 大 量 的 相关 用 例 了 。 在 现代 的 
-» NLP 应 用 中 , 人 们 有 了 时候 会 将 词 干 提取 当 作 是 一 种 预 处 
QQ 理 步骤 从 而 将 其 忽略 掉 ， 因 此 这 往往 取决 于 我 们 所 面 对 

的 具体 领域 和 应 用 。 在 这 里 ， 我 们 想 告诉 你 一 个 事实 ， 

即 如 果 你 希望 用 到 某 些 NLP 标注 器 ， 如 词性 标注 (POS )、 

NER 或 某 种 依赖 性 解析 器 中 的 某 些 部 分 ， 那 么 就 应 该 

避免 进行 词 干 提取 操作 ， 因 为 词 干 提取 会 对 相关 分 词 

进行 修改 ， 这 有 可 能 会 导致 不 同 的 结果 。 

当 讨 论 到 一 般 标 注 器 时 ， 我 们 还 会 进一步 对 此 展开 讨论 。 


2.6 词 形 还 原 




















词 形 还 原 (lemmatization〉 是 一 种 更 条 理化 的 方法 ， 它 涵盖 了 词根 所 有 的 文法 和 变化 
形式 。 词 形 还 原 操作 会 利用 上 下 文 语 境 和 词性 来 确定 相关 单词 的 变化 形式 ， 并 运用 不 同 的 
标准 化 规则 ， 根 据 词性 来 获取 相关 的 词根 〈 也 叫 lemma)。 







































































>>>from nltk.stem import WordNetLemmatizer 
>>>wlem = WordNetLemmatizer () 





@ 译 者 注 : 相应 的 中 文 页 面 为 :https://zh.wikipedia.org/wiki/ 词 干 提取 。 
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>>>wlem.lemmatize ("ate") 
eat 











在 这 里 ，WordNetLemmatizer 使 用 了 wordnet， 它 会 针对 某 个 单词 去 搜索 wordnet 这 个 
语义 字典 。 另 外 ， 它 还 用 到 了 变形 分 析 ， 以 便 直 切 词根 并 搜索 到 特殊 的 词 形 ( 即 这 个 单词 
的 相关 变化 )。 因 此 在 我 们 的 例子 中 ， 通 过 ate 这 个 变量 是 有 可 能 会 得 到 eat 这 个 单词 的 ， 
而 这 是 词 干 提取 操作 无 法 做 到 的 事情 。 

。 现在 你 能 解释 词 干 提取 与 词性 还 原 之 间 的 区 别 了 吗 ? 

。 现在 你 能 为 自己 的 母语 设计 一 个 Porter 词 干 提取 器 (基于 规则 〉 了 吗 ? 

。 为 什么 对 于 中 文 这 样 的 语言 来 说 ， 词 干 提取 器 是 很 难 实现 的 ? 


2. 7 停 用 词 移 除 




























































































































































































停 用 词 移 除 (Stop word removal) 是 在 不 同 的 NLP 应 用 中 最 常会 用 到 的 预 处 理 步骤 之 
一 。 该 步骤 的 思路 就 是 想 要 简单 地 移 除 语料库 中 的 在 所 有 文档 中 都 会 出 现 的 单词 。 通 常情 
况 下 ， 冠 词 和 代词 都 会 被 列 为 停 用 词 。 这 些 单词 在 一 些 NPL 任务 (如 说 关于 信息 的 检索 和 
分 类 的 任务 ) 中 是 毫 无 意义 的 ， 这 意味 着 这 些 单词 通常 不 会 产生 很 大 的 歧义 。 恰 恰 相反 的 
是 ， 在 某 些 NPL 应 用 中 ， 停 用 词 被 移 除 之 后 所 产生 的 影响 实际 上 是 非常 小 的 。 在 大 多 数 时 
器， 给 定语 言 的 停 用 词 列 表 都 是 一 份 通过 人 工 制定 的 、 跨 语料库 的 、 针 对 最 常见 单词 的 停 
用 词 列 表 。 虽 然 大 多 数 语 言 的 停 用 词 列 表 都 可 以 在 相关 网 站 上 被 找到 ， 但 也 有 一 些 停 用 词 
列表 是 基于 给 定语 料 库 来 自动 生成 的 。 有 一 种 非常 简单 的 方式 就 是 基于 相关 单词 在 文档 中 
出 现 的 频率 〈 即 该 单词 在 文档 中 出 现 的 次 数 ) 来 构建 一 个 停 用 词 列 表 ， 出 现在 这 些 语料库 
中 的 单词 都 会 被 当 作 停 用 词 。 经 过 这 样 的 充分 研究 ， 我 们 就 会 得 到 针对 某 些 特定 语料库 的 
最 佳 停 用 词 列表 。NLTK 库 中 就 内 置 了 涵盖 22 种 语言 的 停 用 词 列 表 。 

下 面 就 来 具体 实现 一 下 停 用 词 移 除 的 整个 过 程 ， 这 是 一 段 用 NLTK 来 处 理 停 用 词 的 代 
码 。 当 然 ， 你 也 可 以 像 第 1 章 “ 自 然 语言 处 理 简介 ”中 那样 创建 一 个 字典 ， 然 后 通过 查找 
的 方法 来 解决 这 个 问题 。 


>>>from nltk.corpus import stopwords 









































































































































































































































































































































































































































>>>stoplist = stopwords .words ('english') # config the language name 

# NLTK supports 22 languages for removing the stop words 

>>>text = "This is just a test" 

>>>cleanwordlist = [word for word in text.split() if word not in stoplist] 
# apart from just and test others are stopwords 

['test'] 
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在 上 述 代 码 片 段 中 ， 我 们 所 做 的 是 和 第 1 章 “ 自 然 语言 处 理 简 介 ” 中 一 样 的 停 用 词 移 除 
操作 ， 但 这 里 部 署 的 是 一 个 更 为 简洁 的 版 本 。 之 前 ， 我 们 是 基于 查 表 法 来 做 的 。 即 使 在 当前 
情况 下 ，NLTK 内 部 所 采用 的 仍然 是 一 个 非常 类 似 的 方法 。 这 里 建议 使 用 NLTK 的 停 用 词 
列表 ， 因 为 这 是 一 个 更 为 标准 化 的 列表 ， 相 比 其 他 所 有 的 实现 都 更 为 健全 。 而 且 ， 我 们 可 
以 通过 向 该 库 的 停 用 词 构造 器 传递 一 个 语言 名 称 参 数 ， 来 实现 针对 其 他 语言 的 类 似 方法 。 

。 在 移 除 停 用 词 的 操作 中 ， 背 后 的 数学 运算 是 什么 ? 

。 在 停 用 词 被 移 除 之 后 ， 我 们 就 可 以 执行 哪些 NLP 操作 了 ? 


2.8 罕见 词 移 除 















































































































































这 是 一 个 非常 直观 的 操作 ， 因 为 该 操作 针对 的 单词 都 有 很 强 的 唯一 性 ， 如 说 名 称 、 品 
牌 、 产 品名 称 、 某 些 噪音 性 字符 《例如 html 代码 的 左 缩 进 ) 等 。 这 些 词汇 也 都 需要 根据 不 
同 的 NLP 任务 来 进行 清除 。 例 如 对 于 文本 分 类 问题 来 说 ， 对 名 词 的 使 用 执行 预测 是 个 很 坏 
的 想法 , 即使 这 些 词汇 在 预测 中 有 明确 的 意义 。 我 们 会 在 后 面 的 章节 进一步 讨论 这 个 问题 。 
总 而 言 之， 我 们 绝对 不 希望 看 到 所 有 噪音 性 质 的 分 词 出 现 。 为 此 ， 我 们 通常 会 为 单词 设置 
一 个 标准 长 度 ， 那 些 太 短 或 太 长 的 单词 将 会 被 移 除 : 























































































































>>># tokens is a list of all tokens in corpus 

>>>freq dist = nltk.FreqDist (token) 

>>>rarewords = freq dist.keys()[-50:] 

>>>after rare words = [ word for word in token not in rarewords] 

















在 这 里 ， 我 们 通过 调用 FreqDist () 函数 获取 了 相关 术语 在 语料库 中 的 分 布 情况 ， 并 
选取 了 其 中 最 稀有 的 一 些 词 形成 了 一 个 列表 ， 并 用 它 来 过 滤 我 们 的 原始 语料库 。 当 然 ， 我 
们 也 可 以 对 单一 文档 执行 同样 的 操作 。 


2.9 拼写 纠 错 












































虽然 并 不 是 所 有 的 NLP 应 用 都 会 用 到 拼写 检查 器 (spellchecker)， 但 的 确 有 些 用 例 是 
需要 执行 基本 的 拼写 检查 的 。 我 们 可 以 通过 纯 字 和 典 查 找 的 方式 来 创建 一 个 非常 基本 的 拼写 
检查 器 。 业 界 也 有 专门 为 此 类 应 用 开发 的 一 些 增强 型 的 字符 串 算 法 ， 用 于 一 些 模糊 的 字符 
串 匹 配 。 其 中 最 常用 的 是 edit-distance 算法 。NLTK 也 为 我 们 提供 了 多 种 内 置 了 edit-distance 
算法 的 度量 模块 。 
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>>>from nltk.metric 


s import edit distance 


>>>edit _ distance ("rain","shine") 


3 











我 们 将 会 在 后 续 章 节 ， 





代码 之 一 ， 它 出 自 Peter Norvig 之 手 ， 这 是 一 段 用 纯 Python 实现 的 、 非 常 易于 理解 























小 技巧 : 


总 对 于 所 有 从 事 自然 语言 处 理 这 一 工作 的 ， 我 都 会 推荐 他 
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具体 地 介绍 该 模块 。 我 们 还 会 看 到 拼写 检查 器 最 优雅 的 实现 














们 去 看 看 下 面 这 个 链接 中 所 介绍 的 拼写 检查 内 容 : http/ 


norvig.comy/spell-correct.htm。 


2. 10 ”练习 


下 面 是 一 些 开 放 性 答案 的 问题 。 
。 请 尝试 用 pyodbc 库 访问 任意 一 个 数据 库 。 
https://code.google.com/p/pyodbc/wiki/GettingStarted 





二 





























的 代码 。 


。 你 能 创建 一 个 基于 正则 表达 式 的 标识 器 , 令 其 选取 的 单词 只 包含 大 小 写字 母 、 数 字 





和 金钱 符号 吗 ? 


[w+] 将 会 选取 所 有 








的 单词 和 数字 ， 即 [A-Z A-Z0-9]， 而 M$] 则 会 匹配 金钱 符号 。 


。 词 干 提取 和 词性 还 原 这 两 个 操作 之 间 的 差异 是 什么 ? 
词 干 提取 操作 更 多 时 候 是 一 套用 于 获取 词 干 一 般 形 式 的 规则 方法 。 而 词 形 还 原 主 要 
下 文 语 境 以 及 相关 单词 的 POS， 然 后 将 规则 应 用 到 特定 的 语法 变 











考虑 的 是 当前 的 上 


化 中 。 通常 来 说 ， 词 干 提 取 的 操作 实现 起 来 较为 简单 ， 并 且 在 处 至 


短 于 词 形 还 原 。 


















































E 时 间 上 也 要 明显 

















提示 : http://Snowball.tartarus.org/algorithms/english/stemmer.html。 

















。 在 完成 停 用 词 移 除 








答案 是 否定 的 ， 这 是 不 可 能 的 。 所 有 典型 的 NLP 应 用 ， 如 词性 

















之 后 ， 我 们 还 可 以 执行 其 他 NLP 操作 吗 ? 




















。 你 可 以 为 自己 的 母语 设计 一 个 〈 基 于 规则 的 ) Porter 词 干 提取 器 吗 ? 





标注 


























都 需要 根据 上 下 文 i 
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下 境 来 为 既定 文本 生成 相关 的 标签 。 一 旦 我 们 移 除 了 停 用 词 ， 其 
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上 下 文 环境 也 就 不 存在 了 。 
。 为 什么 在 印 地 文 、 中 文 这 样 的 语言 中 ， 词 干 提取 器 会 变 得 难以 实现 ? 


因为 印度 语 的 词法 很 丰富 ， 而 中 文 则 是 标识 化 的 难度 很 高 ,它们 都 在 符号 的 标准 化 
上 遇 到 了 一 定 的 挑战 ， 因 此 词 干 提取 器 实现 起 来 要 困难 得 多 。 我 们 会 在 后 面 的 章节 
中 详细 讨论 这 些 挑战 。 
























































2. 11 小 结 








在 这 一 章 中 ， 我 们 讨论 了 所 有 与 文本 内 容 相关 的 数据 挖掘 与 数据 再 加 工 话题 。 我 们 介 
了 一 些 最 常见 的 数据 源 ， 并 用 相关 的 Python 包 来 对 它们 进行 解析 。 其 中 ， 我 们 深入 地 
探讨 了 标识 化 处 理 ， 从 非常 基本 的 字符 串 方法 到 自 定义 的 基于 正则 表达 式 的 标识 器 均 有 
所 涉及 。 

另外 ， 我 们 还 讨论 了 词 干 提取 和 词 形 还 原 。 在 这 过 程 中 ， 我 们 介绍 了 各 种 可 用 的 词 二 
提取 器 类 型 及 它们 各 自 的 优 缺点 。 我 们 还 讨论 了 停 用 词 移 除 的 过 程 ， 这 个 操作 的 重要 性 ， 
何 时 该 执行 停 用 词 移 除 以 及 何 时 不 需要 执行 它 。 我 们 还 简单 地 讨论 了 如 何 清除 文本 中 的 军 
见 词 ， 以 及 执行 文本 清理 的 重要 性 一 一 这 里 包含 了 停 用 词 和 罕见 词 ， 我 们 会 根据 它们 的 频 
率 分 布 来 重点 清除 。 最 后 ， 我 们 还 提 到 了 拼写 纠 错 。 我 们 在 文本 挖掘 和 文本 清理 上 可 以 做 
的 事情 是 无 限 的 。 每 一 种 语料库 都 是 一 个 新 的 挑战 ， 并 且 都 存在 要 除去 某 种 新 噪音 的 需要 。 
我 们 需要 花 一 点 时 间 来 了 解 一 下 自己 的 语料库 需要 执行 什么 类 型 的 预 处 理 操作 ， 以 及 应 访 
忽略 掉 什么 东西 。 


在 下 一 章 中 ,我们 将 会 看 到 一 些 与 NLP 相关 的 预 处 理 , 例如 词性 标注 、 断 句 处 理 以 及 
NER 等 。 我 们 会 在 下 一 章 的 某 些 开放 性 问题 的 提示 和 答案 中 作出 解释 。 
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上 一 章 对 自己 所 要 做 的 所 有 预 处 理 步 又 进行 了 讨论 , 以 便 在 工作 中 可 以 应 对 任何 文 
本 语料库 。 我们 现在 应 该 可 以 放心 地 对 任何 种 类 的 文本 进行 解析 和 清理 了 。 应 该 执行 所 
有 的 文本 预 处 理 ， 如 针对 任意 文本 的 标识 化 处 理 、 词 干 提取 以 及 停 用 词 移 除 等 。 可 以 根 
据 自 己 的 需要 执行 和 定制 所 有 相关 的 预 处 理工 具 。 到 目前 为 止 ， 已 经 重点 讨论 了 针对 文 
本 型 文档 的 一 般 性 预 处 理工 作 。 现 在 ， 将 焦点 转向 那些 动作 更 为 激烈 的 NLP 预 处 理 步 
又 吧 。 

本 章 将 具体 讨论 何谓 词性 标注 ， 以 及 词性 (POS) 在 NLP 应 用 环境 中 的 意义 。 也 会 学 
习 如 何 用 NLTK 标注 有 意义 的 信息 ， 并 介绍 可 用 于 NLP 密集 型 应 用 程序 的 各 种 标注 器 。 最 
后 ,还 将 学 习 如 何 用 NLTK 来 标注 命名 实体 。 详 细 讨 论 各 种 NLP 标注 器 ， 并 且 还 会 提供 一 
些 代码 片段 来 帮助 你 理解 它们 。 还 将 会 看 到 这 些 标注 器 的 最 佳 实践 ， 以 说 明 在 什么 地 方 应 
该 使 用 哪 种 标注 器 。 在 读 完 本 章 之 后 ， 读 者 应 了 解 以 下 内 容 。 

。 何谓 词性 标注 ， 以 及 其 在 NLP 中 的 重要 性 。 

。 如 何 使 用 NLTK 中 形形色色 的 词性 标注 。 


。 如 何 用 NLTK 创建 自 定义 的 词性 标注 。 










































































































































































































































































































































































3.1 何谓 词性 标注 














ee 


其 实 ， 我 们 可 能 在 小 时 候 就 已 经 听 说 过 词性 (POS) 这 个 术语 了 ， 尤 其 在 形容 词 和 各 
词 的 实际 使 用 上 。 要 想 掌 握 其 中 的 罕 门 还 是 很 花 时 间 的 。 这 两 者 的 区 别 究竟 是 什么 ? 或 许 ， 
可 以 考虑 将 所 有 这 方面 的 知识 进行 编码 以 创建 一 个 系统 。 这 件 事 看 起 来 好 像 挺 容易 的 ， 但 这 
几 十 年 来 ， 将 这 些 知识 转化 为 可 编码 的 机 器 学 习 模 型 一 直 都 是 一 个 非常 难 解 的 NLP 问题 。 

























































































异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





30 第 3 章 


在 我 个 人 看 来 ， 虽 然 目 前 最 先进 的 词 怕 
度 〈 约 97%)， 但 词性 标注 领域 
对 于 像 英 语 这 样 的 语言 来 说 , 它们 在 者 
门 带 来 了 许多 先进 的 算法 。 尽 管 在 一 般 情 
日 环境 了 。 但 在 某 些 特定 的 月 














精 古 











这 为 我 


























词性 标注 








各 种 跨 不 同 领域 的 、 文 本 化 的 使 有 


















































E 标 注 算法 在 预测 给 定单 词 的 词性 上 已 经 有 了 较 高 的 







































































况 下 ， 这 






























































中 的 一 些 标 沪 











1" 仍 有 大 量 的 研究 在 等 着 我 们 ， 
折 闻 和 其 他 领域 往往 都 有 


许多 已 被 标注 的 语料库 。 
器 应 该 足以 应 付 


能 还 是 














日 例 中 ，POS 的 预 判 可 



































有 些 不 尽 如 人 意 。 对 于 这 些 用 例 ， 可 能 就 得 要 从 头 开 始 建立 一 个 标注 峰 了 。 然 而 ， 如 果 想 
要 深入 了 解 POS， 就 得 先 要 对 机 器 学 习 领 域 中 的 一 些 技 术 有 一 个 基本 的 了 解 。 虽 然 这 部 分 
有 些 是 要 在 第 6 章 : 文本 分 类 中 讨论 的 内 容 ， 但 在 这 里 ， 必 须 先 讨论 一 下 相关 基础 知识 ， 
以 便 可 以 创建 一 个 自 定 义 的 POS 标注 器 以 满足 需求 。 

























































































首先 ， 我 们 要 学 习 一 些 现成 可 用 的 POS 标注 器 ， 及 其 相配 的 token 集 。 在 此 ， 会 看 到 




























































































































































































一 些 以 元 组 形式 存在 的 、 独 立 单词 的 POS。 然 后 ， 再 将 焦点 转移 到 其 中 一 些 标注 其 的 内 前 
[ 作 原 理 上 。 最 后 ， 还 将 讨论 如 何 从 头 开始 创建 一 个 自 定义 的 标注 器 。 
在 讨论 POS 时 ， 总 少不了 会 用 到 Penn Treebank" 这 个 最 常用 到 的 POS 标记 库 。 
标签 相关 说 明 
人 用 名 词 的 单数 形式 
NNPS 专用 名 词 的 复数 形式 
oT 前 置 限定 词 
EOS 所 有 格 结束 符 
PRP 人 称 代词 
PRPS 所 有 格 代词 
RB 副词 
BE 相对 副词 
外 最 高 级 副词 
人 小 品 词 
| 符号 (数学 符号 或 特殊 符号 ) 
TO To 
@ 译 者 注 : Penn Treebank 原本 是 一 个 NLP 项 目的 名 称 ， 该 项 目 主要 用 于 对 相关 语 料 进 行 标注 ， 标 注 内 容 包 括 词性 标注 以 及 名 











法 分 析 。 





其 语 料 来 源 是 1989 年 

















FE 的 华尔街 











报 ， 包 含 了 2499 篇 文章 。 这 














! 指 代 该 项 











所 标注 的 结果 。 
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续 表 
标签 相关 说 明 

UH 叹 词 
VB 动词 的 基本 形式 
VBD 动词 的 过 去 式 
VBG 动词 的 动 名 词 用 法 
VBN 动词 的 过 去 分 词 
WP Wh- 代 词 
WP$ 所 有 格 wh- 代 词 
WRB Wh- 副 词 
# 井 号 符 
$ 美元 符 

句号 
逗号 

分 号 ， 分 隔 符 
( 左 括号 
) 右 括号 
" 直 双 引号 
左 单 引号 
左 双 引 号 
右 单 引号 
本 右 双 引号 
































这 些 看 起 来 就 是 在 小 学 英语 课堂 上 所 讲 的 东西 ， 对 吧 ? 现在 ， 既 然 我 们 已 经 了 解 了 这 
些 标签 所 代表 的 含义 ， 下 面 就 可 以 来 运行 一 个 实验 了 : 





>>>import nltk 
>>>from nltk import word tokenize 
>>>s = "I was watching TV" 
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>>>print nlLtk.Pos tag (word tokenize(s)) 
[('I', 'PRP'), ('was', 'VBD'), ('watching', 'VBG'), ('TV', 'NN')] 


























如 果 只 想 使 用 新 闻 类 或 与 其 类 似 语料库 的 POS， 那 么 只 需要 知道 前 三 行 代码 即 可 。 在 
这 段 代 码 中 ， 先 对 一 段 文本 进行 了 标识 化 处 理 ， 然 后 对 其 调用 了 NLTK 库 中 的 pos_tag 方 
法 , 得 到 了 一 组 ( 词 形 , 词性 标签 ) 形式 的 元 组 。 这 就 是 一 个 NLTK 库 内 置 的 POS 标注 器 。 







































































提示 : 
该 方法 在 内 部 使 用 的 是 由 maxent 分 类 器 (我们 会 在 后 面 
、 章节 中 讨论 分 类 器 这 个 话题 ) 所 训练 出 来 的 模型 ， 以 预 
测 特定 单词 属性 所 属于 的 类 型 标签 。 
如 果 想 了 解 更 多 其 中 的 细节 ， 可 以 参考 下 面 这 个 链接 : 
https://github.com/nltk/nltk/blob/develop/ 
nltk/ tag/ init .py., 









































由 于 NLTK 库 使 用 了 Python 中 强大 而 有 效 的 数据 结构 ， 所 以 在 使 用 由 NLTK 库 处 理 2 
后 所 输出 的 成 果 时 会 具有 更 多 的 灵活 性 
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现在 ， 你 一 定 很 想见 识 一 下 POS 在 真实 应 用 中 的 典型 用 法 究竟 会 是 怎样 的 。 在 一 个 典 
型 的 预 处 理 操作 中 ， 通 常 要 尽 可 能 地 找 出 所 有 的 名 词 。 下 面 来 看 一 段 代码 ， 它 会 找 出 给 定 
句子 中 的 所 有 名 词 : 










































































>>>tagged = nltk.pos tag (word tokenize(s)) 
>>>allnoun = [word for word,pos in tagged if Pos in ['NN','NNP'] | 





现在 ， 试 着 来 回答 一 下 下 面 的 问题 。 
。 可 以 在 进行 词性 标注 之 前 先 删除 掉 停 用 词 吗 ? 
。 要 如 何 获取 该 句子 中 所 有 的 动词 ? 

3.1.1 ”Stanford 标注 器 




















pa 














NLTK 库 还 有 一 个 非常 棒 的 特性 ， 就 是 它 还 有 许多 针对 其 他 的 预 置 标注 器 的 封装 器 ， 
例如 Stanford 工具 包 。 下 面 的 POSTagger 就 一 个 很 常见 的 例子 : 





























>>>from nltk.tag.stanford import POSTaggeL 
>>>import nltk 


>>>stan tagger = POSTagger ('models/english-bidirectional-distdim. tagger', 
'standford-postagger .jar') 
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>>>tokens = nltk.word tokenize(s) 
>>>stan _ tagger .tag (tokens) 


小 技巧 : 

如 果 想 要 使 用 上 述 代 码 ， 就 必须 先 从 下 面 的 链接 中 获取 

Stanford 标注 器 : 

QQ http://nlp.stanford.edu/software/stanford-postagger-full-2014- 
08-27.zip。 
然后 将 其 中 的 jar 文件 和 模型 文件 解压 到 一 个 文件 夹 
中 ， 然 后 在 POSTagger() 的 参数 中 指定 其 绝对 路 径 。 


























现在 总 结 一 下 ， 用 NLTK 库 实现 标注 任务 的 方式 主要 有 两 种 。 


























1. 使 用 NLTK 库 或 其 他 库 中 的 预 置 标 注 器 ， 并 将 其 运用 到 测试 数据 上 。 这 两 种 标注 器 
应 该 足以 应 付 纯 英语 文本 环境 ， 以 及 非特 殊 领 域 语料库 中 所 有 的 词性 标注 任务 了 。 


2. 基于 测试 数据 来 创建 或 训练 出 适用 的 标注 器 。 这 就 等 于 要 处 理 一 个 非常 特殊 的 用 例 






























































或 者 开发 一 个 自 定义 的 标注 器 了 。 

















下 面 ， 来 更 深入 地 了 解 一 下 一 个 典型 的 POS 标注 器 在 其 内 部 究竟 做 了 些 什 么 。 


3.1.2 深入 了 解 标注 如 























一 个 典型 的 标注 器 通常 要 用 到 大 量 的 训练 数据 ， 它 主要 被 用 于 标注 出 句子 中 的 各 个 单 





















































词 ， 并 为 其 标 上 POS 标签 。 标 注 是 个 纯 手动 的 操作 ， 具 体 如 下 : 





Well/UH what/WP do/VBP you/PRP think/VB about/IN the/DT idea/NN of/IN ,/, 
uh/UH ,/, kids/NNS having/VBG to/TO do/VB public/JJ service/NN work/NN for/IN 


a/DT year/NN ?/.Do/VBP you/PRP think/VBP it/PRP 's/BES a/DT ， 





上 面 这 些 样 例 取 自 Penn Treebank 总 机 的 语料库 。 人 们 已 经 针对 一 些 大 型 


/， 


吾 料 库 做 了 大 











那里 的 人 们 花 








量 的 手动 标注 工作 。 甚 至 还 有 一 个 叫 作 语言 数据 联盟 (简称 LDC)“ 组 织 ， 














了 很 多 时 间 来 研究 不 同 语言 的 标注 、 不 同 的 文本 种 类 以 及 不 同 的 标注 操作 ， 如 词性 标注 、 














句法 分 析 标 注 ， 以 及 对 话 标 注 等 (后 面 章 节 会 讨论 这 些 话题 )。 















































二 


@ 译 者 注 : LDC， 全 名 Linguistic Data Consortium， 这 是 一 个 由 大 学 、 图 书馆 、 企 业 、 政 府 、 研 究 机 构 共同 合 办 的 联合 企业 ， 
































成 立 于 1992 年 ， 目 前 由 宾夕法尼亚 大 学 负责 主要 运营 。LDC 最 初 的 角色 只 是 保存 与 分 发 科研 要 用 到 的 语言 






















































































数据 ， 后 来 有 了 资 





金 ， 就 开始 自行 收集 并 构建 一 些 数 据 ， 如 今 该 组 织 已 经 拥有 了 非常 多 的 语言 数据 资源 ， 成 为 了 最 主要 的 科研 语言 资源 管理 分 发 




















机 构 之 一 。 
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提示 : 
读者 可 以 从 https:Wwww.ldc.upenn.edu/ 处 获得 上 述 所 有 
” ”的 资源 以 及 更 多 的 相关 信息 。( 尽管 LDC 可 以 免费 提 
供 一 小 部 分 数据 的 一 小 部 分 ， 但 如 果 需 要 也 可 以 去 购 
买 整 个 标注 语料库 .NLTK 库 中 大 概 内 置 了 PTB 的 大 
约 10% 的 数据 ) 











如 果 还 希望 训练 出 属于 自己 的 POS 标注 器 , 就 需要 针对 特定 的 领域 来 执行 相关 的 标注 

















如 




















操作 。 这 种 标注 操作 就 需要 有 这 些 领域 的 专家 来 协助 。 











通常 情况 下 ， 像 词性 标注 这 样 的 标注 问题 往往 会 被 视 为 顺序 性 的 标签 化 问题 或 者 某 种 






































分 类 问题 ， 后 者 特 指 人 们 为 特定 token 所 生成 的 正确 标签 ， 并 用 相关 判别 模型 对 其 进行 预 
判 的 那 一 类 问题 。 



































为 了 不 让 读者 直接 陷入 过 于 复杂 的 应 用 实例 中 ， 我 们 先 从 一 些 简单 的 标注 方法 开始 。 
下 面 来 看 一 段 代码 ， 它 将 会 告诉 我 们 Brown 语料库 中 各 POS 标签 的 分 布 频率 : 























>>>from nltk.corpus import brown 

>>>import nltk 

>>>tags = [tag for (word, tag) in brown.tagged words (categories='news')] 
>>>print nltk.FreqDist(tags) 

<FreqDist: 'NN': 13162, 'IN': 10616, 'AT': 8893, 'NP': 6866, ',': 5133, 
'NNS': 5066, '.': 4452, 'JJ': 4392 > 











如 你 所 见 ，NN 是 这 里 出 现 频率 最 高 的 标签 ， 我 们 可 以 基于 此 来 创建 一 个 非常 幼稚 




















的 POS 标注 器 ， 用 于 给 所 有 的 测试 文本 分 配 NN 标签 。 当 然 ， 也 可 以 使 用 NLTK 中 的 
一 个 名 为 DefaultTagger 的 函数 来 做 这 件 事 。DefaultTagger 函数 是 顺序 性 标注 器 ， 下 面 
就 来 讨论 一 下 这 个 标注 器 。 该 标注 器 会 去 调用 evaluate0 函 数 ， 该 函数 主要 用 于 评估 相 



































单词 POS 的 准确 度 。 这 是 针对 Brown 语料库 的 标注 器 所 用 的 基准 。 在 default_tagger 








NI 
. 


























这 个 案例 中 ,预测 准确 率 在 13% 左 右 。 下 面 ， 我 们 将 会 把 同样 的 基准 进一步 推广 到 所 有 
的 标注 器 上 。 



































>>>brown tagged sents = brown.tagged sents (categories='news') 
>>>default tagger = nltk.DefaultTagger('NN') 

>>>print default tagger.evaluate (brown tagged sents) 
0.130894842572 
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3.1.3 


坚 无 疑问 ， 上 国 


顺 


序 性 标注 需 

















[那个 标识 器 表现 不 佳 
SequentialBackoffTagger 的 一 部 分 而 已 ， 后 者 是 一 个 | 
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其 实 ，DefaultTagger 本 质 上 只 是 基 类 
抽 序 性 的 标注 服务 。 标 注 器 会 试 着 基于 


























其 所 处 的 上 下 文 环境 来 模型 化 相关 的 标签 。 而 且 如 果 它 不 能 进行 正确 的 标签 预测 ， 就 会 去 
咨询 BackoffTagger。 
体 来 使 用 。 


下 面 继续 来 看 一 些 更 复杂 的 顺序 性 标注 器 。 


1; 


N-gram 标注 








N-gram 标注 器 























前 nn 个 单 


词 ， 





并 预测 名 








器 是 SequentialTagger 的 一 
es 


个 子 类 ， 它 


UnigramsTagger、BigramsTagger 和 TrigramTagger: 


>>>from 
>>>from 
>>>from 
>>>from 
# we are dividing the data into a test and train to evaluate our taggers. 


nltk.tag 
nltk.tag 
nltk.tag 
nltk.tag 


>>>train data 


>>>test data 


import UnigramTagger 
import DefaultTagger 
import BigramTagger 
import TrigramTagger 
































会 在 其 所 在 的 上 下 文 环境 ! 








通常 情况 下 ，DefaultTagger 参数 都 可 以 被 当 作 一 个 BackoffTagger 实 


标注 出 


主 器 中 还 包含 了 一 些 人 们 的 变 体 ， 即 


= brown tagged_sents [ :int(LIen(brown tagged sents) * 0.9)] 
brown tagged sents[int(len(brown tagged sents) * 0.9) :] 


>>>unigram tagger = UnigramTagger (train data,backoff=default tagger) 


>>>print unigram tagger.evaluate (test data) 
0.826195866853 


>>>bigram tagger = BigramTagger (train data, backoff=unigram tagger) 


>>>print bigram tagger.evaluate (test data) 
0.835300351655 


>>>trigram tagger = TrigramTagger (train data,backoff=bigram tagger) 


>>>print trigram tagger.evaluate (test data) 
0.83327713281 












































其 中 ， 基 于 一 元 模型 的 标注 将 只 考虑 相关 标签 的 条 件 频率 ， 
所 外 g 预 测 到 的 、 频率 最 高 的 标签 。 而 bigram-tagger 参数 将 会 考虑 给 定 的 单词 和 该 和 
个 单词 ， 其 标签 将 以 元 组 的 形式 来 关联 被 测试 单词 所 得 至 
参数 将 让 其 查找 过 程 兼顾 到 给 定单 词 的 前 两 个 单词 。 
很 明显 ，TrigramTagger 参数 的 履 盖 范 比较 小 ， 
说 ，UnigramTagger 的 履 盖 范围 则 会 大 一 些 。 为 了 让 准确 



































以 及 针对 每 个 给 定 token 
























































而 实例 精度 则 高 一 些 。 从 另 一 




















词 的 前 


1 的 标签 。 类 似 的 ，TrigramTagger 


方面 来 


率 与 反馈 率 之 间 保 持 一 定 的 平衡 ， 
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上 述 代 人 码 片 段 结合 了 这 三 种 标注 器 。 











首先 ， 




















标签 的 顺序 。 前 提 是 如 果 没 有 发 现 其 
数 ， 以 及 最 后 的 NN 标签 。 


2. 正则 表达 式 标注 器 




















定单 词 的 三 元 模型 查找 ， 以 预测 











Backoff 指 问 i 参数 和 UnigramTagger 参 




















接 下 来 ， 再 来 看 一 个 顺序 怕 














生 的 标注 器 类 ， 这 是 











该 类 中 ， 我 们 的 任务 不 再 是 去 寻找 确 























则 表达 式 模 式 是 如 何 获 取 不 同 词尾 
如 ， 在 英语 文章 ! 


的 






































， 任 何以 ness 结尾 
要 去 写 一 堆 正 则 表达 式 和 纯 Python 代码 来 做 这 件 








切 的 单词 了 。 现 在 ， 我们 可 以 在 定义 一 
的 同时 定义 出 给 定 表达 式 所 对 应 的 标签 。 例 如 ， 在 下 面 的 代码 中 ， 会 
其 中 有 一 些 模式 都 有 
的 词 都 会 是 一 个 形容 词 。 如 果 不 做 这 样 的 标注 ， 就 需 











en 














供 了 基于 POS 的 模式 的 这 样 一 种 优雅 


关 的 领域 。 

















个 以 标注 器 为 基础 的 正则 表达 式 。 在 
个 正则 表达 式 
到 一 些 最 常见 的 正 


























事 ， 
的 方式 。 这 种 方式 也 可 以 被 用 于 所 有 与 POS 模式 相 














各 自 所 关联 的 POS 类 别 。 例 














而 NLTK 中 的 RegexpTagger 参数 提 

















>>>from nltk.tag.sequential import RegexpTagger 


>>>regexp_ tagger = 
[( 
r'.*able$', 
.*nesss$', 
.*ly$', 'RB') 
.*s$', 'NNS') 
( r'.*ing$', 
(r'.*ed$', 'VBD') 
(r'.*', 'NN') 
1) 


( 
( 
( 
( 


'VBG' 


RegexpTagger ( 
r'^-?[0-9]+(.[0- 
(r'(ThelthelA|lalAnlan)$', 
1JT! 
INN， 


9]+)?$", 


), 
), 


), 


r 


'CD'), 
'AT'), 


提 夺 间 砷 砷 大 


# cardinal numbers 
# articles 

# adjectives 

nouns formed from adj] 
adverbs 

plural nouns 

gerunds 

past tense verbs 

nouns (default) 


>>>print regexp tagger.evaluate (test data) 


0.303627342358 

















只 


正如 你 所 看 到 的 ， 我 们 在 这 上 








[ii 
































向 


























的 准确 度 。 如 果 以 混合 的 方式 来 使 用 了 























只 是 使 用 了 一 些 基 于 POS 的 显 模式 ， 就 能 达到 大 约 30% 


E 则 表达 式 标 注 器 ， 如 通过 BackoffTagger， 就 有 可 能 会 




















[由 





使 性 能 得 到 改善 。 在 预 处 理 步骤 中 ， 
来 替换 原生 的 Python E 
置 模式 等 信息 。 
































。 能 和 否 修改 N-gram 标注 器 那 一 节 中 hybrid 标注 
对 否 改 善 性 


的 正则 表达 式 来 写 一 个 标注 器 ? 


Ce 达 式 标 注 


于 标注 日 


做 能 
期 和 货币 


器 ? 这 样 















































步 社区 


还 有 男 一 


个 了 


E 则 表达 式 标注 器 的 使 用 





台 已 
有 EE? 






































j 例 ， 就 是 用 它 











函数 string.sub0， 该 类 标注 器 可 以 用 来 标注 日 期 模式 、 资 金 模 式 、 位 


器 的 代码 ， 使 之 成 为 一 个 可 用 的 正则 
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3.1.4 Brill 标注 器 


Bril 标注 器 











一 种 基于 转换 操作 的 标注 器 ， 其 思路 是 先 对 给 定 标签 做 一 个 猜测 ， 然 后 





在 下 -办 迁 代 中 ，， 基于 标注 器 接 下 来 所 学 到 的 规则 设置 返回 到 原先 的 错误 上 并 修复 它 。 这 


























一 种 监督 型 的 标注 方式 ， 但 与 N-gram 标注 不 同 的 是 ， 后 者 会 在 训练 数据 中 对 N-gram 





























模式 来 进行 计数 ， 而 在 这 里 我 们 要 查找 的 是 转换 规则 。 
如 果 该 标注 器 是 从 Unigram / Bigram 这 两 个 准确 度 可 接受 的 标注 器 开始 做 起 的 ， 而 后 
再 到 Brill 标注 器 ， 我 们 要 查找 的 就 不 再 是 一 个 三 元 组 ， 而 是 一 些 基 于 标签 、 位 置 以 及 单词 





























本 身 的 规则 。 

























































































例如 有 这 样 一 条 规则 : 








当 目 标 单词 的 前 

















在 基于 UnigramTagger 打 了 一 些 标签 之 后 ， 如 果 我 们 面 对 的 只 是 一 个 简单 的 规则 ， 那 


置 词 被 标注 为 TO 时 ， 其 标注 NN 就 应 该 被 蔡 换 为 VB。 

































































就 可 以 去 持续 地 改进 这 些 标注 。 这 种 改进 是 一 个 交互 的 过 程 。 通 过 几 次 迭代 操作 和 一 些 更 
































优 的 规则 ，Brill 标注 器 是 可 以 超越 某 些 N-gram 标注 器 的 。 唯 一 的 建议 是 要 注意 标注 器 在 





























训练 数据 集 上 被 过 度 配 适 〈over-fitting) 的 问题 。 








提示 : 

读者 可 以 在 下 面 链 接 中 找到 更 多 在 工作 中 被 使 用 的 规 
则 实例 : 
http://stp.lingfil.uu.se/~bea/publ/megyesiBrillsPoS Tagger.pdf. 








。 你 是 否 能 基于 自己 的 观察 写 出 更 多 的 规则 ? 
。 请 试 着 将 Brill 标注 器 与 UnigramTagger 搭配 使 用 。 


3.1.5 ”基于 机 需 学 习 的 标注 髓 





























到 目前 为 止 ， 所 
虽然 上 一 节 的 一 些 实 


全 















































到 的 都 是 一 些 来 自 NLTK 或 Stanford 的 、 用 于 预先 训练 的 标注 器 。 





























网 使 用 了 和 它们， 但 这 些 标注 器 的 内 部 对 我 们 而 言 仍然 是 一 个 黑 盒 子 ， 














例如 pos tag 内 部 使 











算法 的 一 个 修改 版 本 。 


的 是 最 大 蚁 分 类 器 (MEC)， 而 StanfordTagger 所 采用 的 也 是 最 大 坑 
晶 它 们 属于 不 同 的 模型 。 其 中 有 许多 基于 隐 性 马尔 可 夫 模 型 (HMM) 



































和 条 件 随机 场 《CREF) 的 标注 器 ， 它 们 所 使 用 的 都 是 生成 性 模型 。 
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当然 ， 本 书 所 要 介绍 的 内 容 无 法 覆盖 上 述 所 有 的 话题 ， 但 我 会 尽力 推荐 一 些 相关 的 NLP 
类 ， 以 便 读 者 对 这 些 概念 能 有 一 个 大 致 上 的 了 解 。 第 6 章 : 文本 分 类 将 会 重点 介绍 一 些 分 
类 技术 ， 其 中 也 不 乏 一 些 非常 高 级 的 NLP 话题 ， 它 们 需要 更 多 的 关注 。 

如 果 非 要 做 一 个 简短 说 明 ， 我 们 也 可 以 将 这 种 归 类 型 的 词性 标注 问题 看 作 是 一 种 分 类 
问题 ， 我 们 会 为 其 指定 某 个 具体 的 单词 以 及 其 他 相关 的 特性 ， 如 它 的 前 置 词 、 上 下 文 语 境 、 
形态 变化 等 。 将 给 定单 词 归 类 到 相应 的 POS 类 别 中 ， 而 它 的 其 他 部 分 也 会 根据 相似 的 特性 
被 模型 化 ， 以 形成 某 种 生成 性 模型 。 读 者 可 以 参考 下 面 提 示 框 中 列 出 的 链接 ， 以 查看 其 中 
东 坚 话题 的 资料 。 

























































































































































































提示 : 
NLP CLASS: https:/www.coursera.org/course/nlp 
. HMM: http:/mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf 
MEC: 
e https://web.stanford.edu/class/cs124/lec/Maximum 
Entropy_Classifiers.pdf 
e http://nlp.stanford.edu/software/tagger.shtml 


3.2 命名 实体 识别 (NER) 


























除了 POS 之 外 ， 找 出 文本 中 的 实体 项 也 是 最 常见 的 标签 化 问题 之 一 。 通 常情 况 下 ，NER 
主要 由 实体 名 、 位 置 和 组 织 构成 。 当 然 ， 有 些 NER 系统 要 标注 的 实体 不 止 这 三 项 。 这 也 可 
以 被 视 作 是 一 个 顺序 性 的 标签 化 问题 ， 可 以 利用 上 下 文 语 境 和 其 他 相关 特性 来 标签 化 这 些 
命名 实体 。 当 然 ， NLP 领域 中 还 有 大 量 的 研究 在 推进 当中 ， 人 们 正 试 图 研究 如 何 标签 化 生 
物 实体 、 零 售 产品 实体 等 。NLTK 库 中 NER 标注 的 方式 也 主要 有 两 种 。 一 种 方式 是 使 用 预 
先 训 练 好 的 NER 模型 ， 我 们 只 要 读 取 测试 数据 的 得 分 即 可 。 另 一 种 方式 是 建立 一 个 机 器 学 
习 基 本 模型 。 为 此 ,NLTK 库 提供 了 ne_chunk0 方 法 和 一 个 封装 了 Stanford NER 标注 器 的 命名 
实体 识别 系统 。 


NER 标注 器 
















































































































































































NLTK 库 提 供 的 的 命名 实体 提取 方法 是 ne_chunk0。 我 们 已 经 用 一 小 段 代 码 给 读者 演 
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示 了 如 何 用 它 来 对 任意 语句 进行 标注 。 这 种 方法 需要 先进 行文 本 的 预 处 理 ， 即 先 对 语句 进 
行 标识 化 处 理 ， 然 后 再 进行 语 块 分 解 和 词性 标注 的 处 理 顺 序 ， 之 后 才能 进行 命名 实体 的 标 
注 。 虽 然 NLTK 库 在 这 里 会 用 到 ne_chunking， 且 并 没有 拆 分 任何 东西 ， 但 它 标 注 了 多 个 分 
词 ， 以 便 能 通过 它们 调用 到 某 个 有 意义 的 实体 项 。 


对 于 命名 实体 来 说 ，NE 语 块 分 解 的 方式 是 基本 相同 的 : 








































































































>>>import nltk 
>>>from nltk import ne chunk 
>>>Sent = "Mark is studying at Stanford University in California" 
>>>print (ne chunk (nltk .pos tag (word tokenize (sent) ) binary=False)) 
(S 

(PERSON Mark/NNP) 

is/VBZ 

studying/VBG 

at/IN 

(ORGANIZATION Stanford/NNP University/NNP) 

in/IN 

NY (GPE California/NNP))) 








如 你 所 见 ，ne_chunking 方法 主要 用 于 识别 相关 的 人 员 《〈 即 姓名 )， 以 及 他 所 在 的 地 点 
《即位 置 》 和 组 织 。 如 果 binary 参数 被 设置 为 True， 该 方法 就 会 给 出 整个 句子 的 树 结构 以 
及 上 面 的 每 一 个 标签 。 而 当 该 参数 被 设置 为 False 时 ， 该 方法 就 会 提供 具体 的 人 员 、 位 置 和 
组 织 的 信息 ， 其 情况 与 之 前 使 用 Stanford NER 标注 器 的 例子 一 样 。 
和 POS 标注 器 的 情况 类 似 , NLTK 库 中 也 封装 了 Stanford NER。 该 NER 标注 器 具有 更 
高 的 准确 度 。 下 面 ， 通 过 一 段 代码 来 看 看 这 种 标注 器 的 具体 使 用 方式 。 你 将 会 在 这 个 例子 
中 看 到 ， 只 用 三 行 代码 就 可 以 标注 出 所 有 的 实体 : 








































































































































































































>>>from nltk.tag.stanford import NERTagger 
>>>st = NERTagger ('<PATH>/stanford-ner/classifiers/all.3class.distsim. 


crf.ser.gz',... '<PATH>/stanford-ner/stanford-ner .jar') 
>>>st.tag('Rami Eid is studying at Stony Brook University in NY'.split()) 
[('Rami', 'PERSON'), ('Eid', 'PERSON'), ('is', '0'), ('studying', '0'), 


('at', 'O0'), ('Stony', 'ORGANIZATION'), ('Brook', 'ORGANIZATION'), 
('University', 'ORGANIZATION'), ('in', 'O0'), ('NY', 'LOCATION')] 

















如 果 仔 细 观 察 ， 就 会 发 现 即 使 对 一 段 非常 小 的 测试 语句 来 说 ，Stanford 标注 器 的 执行 
性 能 也 要 好 于 NLTK ne_chunk 标注 器 。 


如 今 ， 虽 然 这 些 各 式 各 样 的 NER 标注 器 已 经 成 为 了 一 种 非常 受 欢迎 的 、 用 来 执行 各 
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种 通 








用 实体 标注 的 解决 方案 ， 但 我 们 还 是 有 必要 训练 出 属于 自己 的 标注 器 ， 以 应 对 像 4 
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物 学 、 医 学 这 样 特定 领域 的 标注 实体 任务 ， 因 此 需要 创建 出 属于 自己 的 NER 系统 。 当然， 






























































我 在 这 里 也 会 向 你 推荐 一 个 NER: Calais。 它 的 标注 方式 不 止 是 典型 的 NER， 还 有 更 多 实 























体 项 。 而 且 这 个 标注 器 的 性 能 也 非常 不 错 ,， 其 网 址 为 nttps://code.google.com/p/ 
python-calais/。 


3.3 








练习 


下 面 来 回答 一 下 之 前 章节 中 提出 的 问题 。 








能 否 在 执行 词性 标注 之 前 移 除 掉 停 用 词 ? 
不 能 。 如 果 移 除 掉 这 些 停 用 词 ， 就 等 于 丢失 了 上 下 文 语 境 ， 而 有 一 些 POS 标注 器 
(预先 训练 模型 ) 是 要 以 单词 的 上 下 文 语 境 为 特征 来 标 出 给 定单 词 的 POS 的。 


如 何 获取 相关 语句 中 的 所 有 动词 ? 
可 以 用 pos_tag 来 获取 该 语句 中 的 所 有 动词 : 















































>>>tagged = nltk.pos tag (word tokenize(s)) 
>>>allverbs = [word for word,pos in tagged if Pos in 
['VB','VBD','VBG'] ] 











能 否 修改 N-gram 标注 器 那 一 节 中 hybrid 标注 器 的 代码 ， 使 之 成 为 一 个 可 用 的 正则 
表达 式 标 注 器 ? 这 样 做 能 否 改善 性 能 ? 

是 的 ， 可 以 修改 N-gram 标注 器 那 一 节 中 hybrid 标注 器 的 代码 ， 使 之 成 为 一 个 可 用 
的 正则 表达 式 标注 器 : 





























>>>print unigram tagger.evaluate(test data,backoff= regexp_ tagger) 
>>>bigram tagger = BigramTagger (train data, backoff=unigram tagger) 
>>>print bigram tagger.evaluate (test data) 

>>>trigram tagger=TrigramTagger (train data,backoff=bigram tagger) 
>>>print trigram tagger.evaluate (test data) 

0.857122212053 

0.866708415627 

0.863914446746 




















而 且 其 性 能 也 得 到 了 改善 , 因为 这 里 加 入 了 一 些 基 于 模式 的 基本 规则 ， 替代 了 预测 
出 现 频 率 最 高 的 标签 。 
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。 能 否 基 于 标注 日 期 和 货币 的 正则 表达 式 来 写 一 个 标注 器 ? 
是 的 ， 我 们 可 以 基于 标注 日 期 和 货币 的 正则 表达 式 来 写 一 个 标注 器 。 其 代码 如 下 : 





















































>>>date regex = RegexpTagger ([(r' (\d{2}) [/.-](\d{2}) [/.-] (\d{4})$" 
, 'DATE'), (r'\$','MONEY')]) 

>>>test tokens = "I will be flying on sat 10-02-2014 with around 
10M $ ".split() 

>>>print date regex.tag (test tokens) 


提示 : 
” ”最 后 两 个 问题 并 没有 确切 的 答案 。 
因为 这 里 有 许多 规则 要 取决 于 读者 自己 的 观察 ， 所 以 
并 没有 正确 /错误 的 答案 。 





























现在 ， 你 能 否 再 来 挑战 一 下 第 1 章 中 词 云 这 样 的 题目 ? 当然 ， 其 范围 上 只 局 限于 名 词 和 




















ut 














动词 。 


参考 资料 : 

https://github.com/jJaperk/nltk-trainer 
http://en.wikipedia.org/wiki/Part-of-speech tagging 
http://en.wikipedia.org/Wwiki/Named-entity_recognition 
http://www.inf.ed.ac.uk/teaching/courses/icl/nltk/tagging.pdf 


http:/www.nltk.org/api/nltk.tag.html 


3.4 小 结 


所 讨 



































本 章 的 主旨 是 要 向 读者 介绍 NLP 预 处 理 步 又 中 最 有 用 的 标注 操作 。 一 般 情况 下 ,我们 
论 的 词性 问题 包含 y POS 在 NLP 语 境 中 所 具有 的 意义 。 当 然 ， 我 们 还 具体 讨论 了 在 










































































NLTK 库 中 各 种 不 同 的 、 用 于 预先 训练 POS 标注 器 的 方式 ， 它 们 是 如 此 得 简单 易 用 ， 并 且 
























































能 创建 出 如 此 精彩 的 应 用 。 然 后 ， 又 对 所 有 可 用 的 词性 标注 选项 进行 了 探讨 ， 如 N-gram 标 
注 、 正 则 表达 式 标注 等 。 男 外 ， 还 开发 了 一 些 混合 型 的 标注 器 ， 以 应 对 一 些 特定 领域 的 语 
料 库 。 























其 中 ， 我 们 简单 地 介绍 了 一 个 典型 的 预先 训练 标注 器 的 构建 过 程 ， 探 讨 了 各 种 可 能 用 
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于 解决 标注 问题 的 方法 。 最 后 ， 还 讨论 了 NER 标注 器 ， 以 及 该 标注 器 在 NLTK 库 中 的 工作 
方式 。 我 希望 读者 在 阅读 完 本 章 之 后 ， 能 理解 POS 和 NER 在 通用 NLP 语 境 中 的 重要 性 ， 
并 且 知 道 如 何 运 行 并 使 用 本 章 中 所 列 出 的 NLTK 代码 ， 这 样本 章 的 目的 就 达到 了 。 但 旅程 
并 没有 就 此 结束 。 现 在 只 是 了 解 了 一 些 粗浅 的 NLP 预 处 理 步骤 ， 以 及 在 大 多 数 实践 应 用 中 
POS、NER 的 主要 运用 。 而 在 问答 系统 、 文 本 综述 和 语音 应 用 这 一 类 更 为 复杂 的 NLP 应 用 
中 ， 需 要 用 到 语 块 分 解 、 语 法 解析 、 语 义学 等 这 些 更 深层 的 NLP 技术 ， 而 这 些 正 是 下 一 章 
将 要 讨论 的 话题 。 
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本 章 的 内 容 将 会 让 我 们 对 文本 的 深层 结构 有 
在 不 同 的 NLP 应 用 中 使 用 它 这 些 方法 。 如 你 所 知 ， 
该 进入 到 一 些 更 深层 次 的 文本 处 理 了 。 
的 各 层次 来 对 它 进行 描述 。 本 章 将 讲解 所 有 的 文 


体 方法 ， 


了 NLP 中 的 各 种 预 处 理 步 又， 
构 是 非常 复杂 的 ， 需 要 按照 其 
这 些 结构 之 间 的 区 别 ， 











本 结构 ， 介 2 











以 及 如 何 


U 40 
时 加 加 :地 肝 址 

















讨 半 ee (context-free grammar， 简 称 CFG )， 
同 的 文本 解析 器 ， 并 介 


实现 。 还 























带 你 浏览 各 种 不 








接 下 来 冯 






























































析 方 


Rp 交 用 




















境 中 的 NER 问题 。 


的 选项 。 我 们 会 


定 程度 的 理解 。 


本 章 将 会 介 








也 会 


试 着 为 你 提供 
话题 所 发 挥 的 具体 作用 。 








详细 地 为 你 介 乡 





召 以 下 内 容 。 





。 首先 ， 
。 然后 ， 


。 最 后 ， 


4.1 


de 


是 

















通 


会 介 
ES 
ss 
会 
还 


狠 














文本 解析 是 什么 ， 
讨论 各 种 不 同 的 文本 解析 器 ， 以 及 如 何 
:将 讨论 文本 解析 在 信 


结构 处 到 


一 些 关 于 信 











个 更 好 的 理解 ， 并 掌握 解析 文本 的 具 
我 们 目前 已 经 完成 
语言 的 结 















































并 详细 介绍 





NLIK 























LTK 库 来 写 一 个 浅 解 析 器 ， 其 中 将 会 再 次 讨论 到 语 块 分 解 语 
库 中 现 有 的 一 些 可 
县 提取 的 真实 用 例 ， 
总 而 言 之 ， 我 们 希望 读者 在 阅读 完 本 章 之 后 能 对 这 些 话题 


以 及 与 NLP 相关 的 文本 解析 究竟 














中 部 分 结构 的 具体 用 法 。 另 外 ， 还 将 
以 及 它 在 NLTK 库 中 的 具体 























绍 如 何 使 用 NLTK 库 中 现 有 的 一 些 解 





























用 于 深层 文本 结构 分 析 
绍 本 章 提 及 的 这 些 


FE 题 有 

















以 便 介 









































是 怎样 的 。 














] NLTK 库 来 执行 解析 。 




















娠 提取 操作 








的 作用 。 





浅 解 析 与 深 解析 











情况 下 ， 在 深入 解析 或 者 全 面 解析 的 过 程 中 ， 





像 CFG、PCFG ( 妈 probabilistic 





context-free grammar， 概 率 性 上 下 文 无 关 语 法 ) 以 及 搜索 策略 这 样 的 语法 概念 的 作用 都 是 
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要 将 












































































































































整 的 语法 结构 应 用 到 某 个 句子 上 。 其 中 ， 浅 解析 〈shallow parsing) 是 一 种 面向 


给 定 文本 的 ， 对 其 语法 信息 部 分 所 进行 的 有 限 解析 任务 。 而 深 解析 (deep parsing) 则 是 一 













































































种 更 为 复杂 的 应 用 。 一 般 来 说 ， 深 解析 比较 适合 于 对 话 系统 和 文本 综述 这 样 的 应 用 ， 而 浅 
解析 则 更 适合 于 信息 提取 和 文本 挖掘 这 一 类 的 应 用 。 接 下 来 将 会 用 几 节 的 篇 幅 来 讨论 它们 
各 自 的 优 缺 利 浆 ， 以 及 在 NLP 应 用 中 的 具体 用 法 。 
4.2 两 种 解析 方法 

业界 对 于 文本 解析 这 个 话题 ， 主 要 存在 着 两 种 观点 /方法 ， 其 具体 情况 如 下 表 所 示 。 

基于 规则 的 方法 基于 概率 的 方法 
二 ee 在 该 方法 中 ， 我 们 会 通过 运用 概率 模型 来 学 习 规则 和 
该 方法 则 和 语法 。 sy 
语法 。 

在 该 方法 中 ， 我 们 将 会 基于 CFG 等 语法 概 

ee S 该 方法 使 用 的 是 所 观测 到 的 相关 语言 特征 的 出 现 概率 。 
念 来 编撰 语 法 规则 手册 。 
这 是 一 个 自 上 而 下 的 方法 。 这 是 一 个 自 下 而 上 的 方法 。 





























该 方法 中 包含 了 CFG 和 基于 表达 式 的 解析 器 。 























4.3 为 什么 需要 进行 解析 


什么 要 


了 



































该 方法 中 包含 了 PCFG 和 Stanford 解析 器 。 














学 习 上 自己 的 母语 。 学 习 语 言 的 过 程 通常 是 这 样 的 : 先 学习 的 是 少量 
的 短语 语 块 ， 再 来 就 是 少量 的 句子 。 就 刀 


结 


就 会 





= 














的 规则 ， 这 些 规则 就 能 按照 某 种 适当 的 顺序 写 日 









































采用 这 样 一 个 类 似 的 过 程 。 当 然 ， 









































解析 器 时 ， 





自然 会 想 着 要 重 


复 上 述 过 程 。 如 果 能 提 昌 
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济 
| 
党 
bb 
外 











答 这 个 问题 ， 就 得 再 次 回 到 当年 在 学 校 学 习 语 法 的 时 候 。 现 在 请 告诉 我 ， 为 
] 语 法? 真 的 需要 学 习 语 法 吗 ? 答案 当然 是 肯定 














E 学 习 各 个 例句 的 过 程 中 
构 。 我 们 的 母亲 会 怎样 一 次 次 地 纠正 我 们 说 错 的 句子 ， 当 我 们 试图 理 




















Fu 
US 

由 

虽 


二 号 吕 








由 于 这 个 过 程 太 日 常 化 了 ， 











径 一 个 句子 时 
以 至 于 我 们 从 来 没 
真正 重视 过 , 或 者 说 没有 仔细 地 思考 过 它 。 也 许 等 下 次 我 们 自己 去 纠正 别人 的 语法 时 
就 


8 一 组 可 被 当 作 某 种 模版 











句子。 另外 ， 








需要 将 相关 的 单 











词 分 门 


4.3 为 什么 需要 进行 解析 45 


























别 类 。 这 个 过 程 已 经 讨论 过 了 ， 记 得 吗 ? 词性 标注 的 目的 就 是 让 我 们 知道 给 定 和 


























的 类 别 。 

















词 所 属 





如 


如 果 理 解 了 上 述 内 容 ， 那 么 就 等 于 已 经 掌握 了 游戏 规则 ， 知 道 应 该 采取 什么 有 效 动作 
































和 特定 步骤 了 。 我 们 基本 上 是 在 追随 一 个 人 脑 中 非常 自然 的 变化 过 程 ， 并 试图 将 其 






























































模拟 出 


来 。 其 中 最 简单 的 语法 概念 要 从 CFG 开始 切入 ,这 里 所 需要 的 只 是 一 组 规则 和 一 个 术语 分 





词 集 。 





























下 面 ， 我 们 将 会 用 非常 有 限 的 词汇 量 和 非常 通用 的 规则 来 写 第 一 个 语法 : 


# toy CFG 

>>>from nltk import CFG 
>>>toy_grammar = 
nltk.CFG.fromstring( 


mnmnnm 


S -> NP VP # S _ indicate the entire sentence 

VP -> V NP # VP is verb phrase the 

V -> "eats" | "drinks" # V is verb 

NP -> Det N # NP is noun phrase (chunk that has noun in it) 

Det -> "a" | "an" | "the" # Det is determiner used in the sentences 
N -> "president" |"Obama" |"apple"| "coke" # N some example nouns 


mn "1) 


>>>toy_grammar .productions () 


























目前 ， 这 一 语法 概念 所 能 产生 的 句子 数量 是 很 有 限 的。 下 面 来 思考 一 种 情况 ， 如 果 现 


























所 列 出 的 单词 ， 那 么 大 概 可 以 搭配 出 这 样 的 例句 。” 
e President eats apple 


e Obama drinks coke 








现在 来 了 解 一 下 这 个 过 程 中 究竟 发 生 了 些 什么 。 我 们 在 自己 的 脑海 中 创建 了 一 个 语法 
E 确 地 完成 这 个 












































T 








概念 ， 它 会 基于 上 述 规则 和 所 提供 的 这 些 词汇 来 进行 文本 解析 。 如 果 能 够 J 
解析 ， 就 能 够 理解 例句 的 含义 。 





























在 只 知道 如 何 将 一 个 名 词 和 一 个 动词 搭配 使 用 ， 并 且 这 些 动词 和 名 词 上 只 能 来 自 于 上 述 代码 























由 此 可 见 ， 在 学 校 里 所 学 到 的 英文 语法 规则 是 有 效 的 。 因 为 很 显然 ， 我 们 仍 在 


些 语法 ， 同 时 也 在 不 断 增强 它们 ， 理 解 所 有 英文 句子 的 都 是 这 一 套 相同 的 规则 。 但 
天 的 规则 显然 不 适用 于 莎士比亚 时 期 所 用 的 文体 。 








































































































Q@ 译 者 注 : 由 于 原文 针对 的 是 英文 语法 分 析 ， 所 以 这 里 的 例句 就 不 翻译 了 。 
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另 一 方面 ， 同 一 套 语法 也 可 能 会 构造 出 一 些 毫 无 意义 的 句子 ， 例 如 : 

e Apple eats coke 

e President drinks Obama 

当 具 体 涉 及 某 个 语法 解析 器 〈syntactic parser) 时 ， 事 实 上 本 身 就 有 一 定 的 机 率 在 语 
法 上 会 形成 一 些 毫 无 意义 的 句子 。 因 此 如 果 想 要 获得 其 中 的 语义 的 话 ， 就 需要 对 句子 的 语 
义 结 构 有 一 个 更 为 深入 的 理解 。 我 们 建议 读者 应 该 具体 查看 一 下 与 自己 所 感 兴 趣 的 语言 相 
关 的 语法 解析 器 。 


4.4 不 同 的 解析 器 类 型 

















































































































解析 器 通常 要 先 对 一 个 用 于 表达 一 组 语法 规则 的 输入 字符 串 进行 处 理 ， 然 后 构建 出 一 
个 或 多 个 可 用 于 构成 某 种 语法 概念 的 规则 。 简 而 言 之 ， 语 法 是 我 们 用 于 衡量 一 个 句子 结构 
是 否 良好 的 一 份 规范 说 明 ， 而 解析 器 则 是 一 个 用 于 解读 语法 的 程序 。 该 程序 会 通过 搜索 各 
种 不 同 的 树 结构 空间 ， 找 出 给 定 句子 的 最 佳 树 结构 。 下 面 来 看 一 些 现 有 的 解析 器 ， 简 要 地 
认识 一 下 这 些 解析 器 的 运作 细节 及 其 实际 用 途 。 


4.4.1 递归 下 降解 析 器 


先 来 看 一 个 最 简单 的 解析 形式 ， 称 之 为 递归 下 降解 析 (recursive descent parsing)。 这 是 

个 自 上 而 下 的 处 理 过 程 ， 由 于 该 解析 器 会 从 左 向 右 读 取 输 入 流 中 的 信息 ， 所 以 它 会 试 区 
去 验证 其 语法 的 正确 性 。 该 解析 器 的 基本 操作 是 从 输入 流 中 读 取 字符 ， 然 后 将 它们 与 终端 
所 输入 的 语法 规则 说 明 进 行 匹 配 。 递 归 下 降解 析 器 会 在 其 得 到 一 次 正确 匹配 时 超前 查看 一 
个 字符 ， 并 领先 于 其 输入 流 的 读 取 指针 。 


4.4.2 移 位 - 归 约 解析 器 


移 位 - 归 约 解析 器 (shift-reduce parser) 是 一 种 简单 的 、 自 下 而 上 的 解析 器 。 和 所 有 
见 的 、 自 下 而 上 的 解析 器 一 样 ， 移 位 - 归 约 解析 器 也 会 试 着 去 寻找 一 个 单词 和 短语 序列 ， 
们 一 方面 对 应 着 语法 生成 器 的 右 侧 ， 另 一 方面 则 会 用 生成 器 左 侧 的 内 容 对 其 进行 奉 换 ， 
到 归 简 出 完整 的 句子 为 目 。 
4.4.3 ”图 表 解 析 器 


我 们 还 会 将 算法 设计 中 的 动态 规划 技术 应 用 到 解析 问题 上 。 动 态 规划 技术 可 以 将 中 间 
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吉 果 
被 应 
存 起 
称 为 





4.4. 


性 标 
为 它 
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保存 下 来 ， 然 后 在 适当 的 时 候 重新 启用 它们 ， 以 便 显 著 地 提高 效率 。 这 一 技术 也 可 以 
有 到 文本 解析 中 。 这 样 就 可 以 将 解析 任务 分 成 儿 部 分 来 解决 ， 并 将 各 部 分 的 结果 先 储 
来 ， 然 后 在 必要 时 再 来 考虑 如 何 将 其 有 效 地 组 合成 一 个 完整 的 解决 方案 。 这 种 方法 被 
图 表 解 析 (chart parsing ) 。 































































































提示 : 
如 果 想 更 好 地 了 解 解 析 器 的 相关 信息 ， 读 者 也 可 以 看 看 
一 下 面 链接 中 的 例子 : 
http://www.nltk.org/howto/parse.html。 


4 正则 表达 式 解 析 如 


正则 表达 式 解 析 器 使 用 的 是 一 个 正则 表达 式 ， 定 义 该 表达 式 的 语法 形式 是 在 完成 了 词 
注 的 字符 串 之 上 构建 而 成 的 。 该 解析 器 将 使 用 这 些 正则 表达 式 来 解析 给 定 的 句子 ， 并 
们 生成 相应 的 解析 树 。 下 面 就 具体 来 看 看 正则 表达 式 解 析 器 的 操作 实例 : 

































































# Regex parser 
>>>chunk rules=ChunkRule ("<.*>+","chunk everything") 
>>>import nltk 
>>>from nltk.chunk.regexp import * 
>>>reg parser = RegexpParser(''! 
NP: {<DT>? <JJ>* <NN>*} # NP 


P: {<IN>} # Preposition 

V: {<V.*>} # Verb 

PP: {<P> <NP>} # PP -> P NP 
VP: {<V> <NP|PP>*} # VP -> V (NP|PP)* 


站) 

>>>test_sent="Mr. Obama played a big role in the Health insurance bill" 
>>>test_ sent pos=nltk .pos tag (nltk .word tokenize (test sent)) 

>>>paresed out=reg parser .parse (test sent pos) 

>>> print paresed out 


Tree('S', [('Mr.', 'NNP'), ('Obama', 'NNP'), Treel('VP', [Treel('V', 
[('played', 'VBD')]), Tree('NP', [('a', 'DT'), ('big', 'JJ'), ('role', 
'NN')])]), Tree('P', [('in', 'IN')]), ('Health', 'NNP'), Treel('NP', 


[('insurance', 'NN'), ('bill', 'NN')])]) 








现在 ， 再 来 看 看 上 述 代码 所 对 应 的 树 结 构 ， 它 的 图 形 化 表示 如 图 4-1 所 示 。 
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在 上 述 例 子 中 ,我 们 (基于 POS 的 了 





成 短语 ， 例 如 ， 如 果 某 个 短语 














本 
[NNP)] (NNP] veo] [NP [PP | 
[wj oana (payed) [oj [ID INN IN] 
| 
[a] (ea) fee) (nn) (for) nl IN 人 INN 
[ae [Heath (insurance] [ol 
图 4-1 


E 则 表达 式 ) 定义 了 模式 的 种 类 ， 和 希望 用 模式 来 生 








匹配 {<DT>? <JJ> * <NN>*} 这 个 模式 ， 也 就 是 说 它 是 一 个 








限定 词 后 跟着 一 个 形容 词 ， 再 加 

















个 名 词 ， 那 么 大 多 数 情况 下 它 会 是 一 个 名 词性 的 短语 。 





现在 ， 这 更 是 我 们 已 经 定义 得 到 基于 规则 的 解析 树 的 语言 规则 。 得 到 的 是 基于 规则 的 解 


析 树 。 


4.5 依存 性 文本 解析 


依存 性 文本 解析 (dependency parsing， 简 称 DP) 是 一 种 现代 化 的 文本 解析 机 制 。 


DP 的 主要 概念 是 将 各 个 语法 单元 〈 上 



































词 ) 月 


一 





日 定向 链 路 串联 起 来 。 这 些 链 路 称 为 语法 上 





的 依存 关系 〈dependencies)。 在 目前 的 文本 解析 社区 中 ， 有 大 量 这 样 的 工作 在 进行 。 尽 
管 短语 结构 式 文本 解析 (phrase structure parsing) 在 一 些 词 序 自由 的 语言 《例如 捷克 语 




















和 土耳其 语 ) 中 仍 被 广泛 使 




















j， 但 依存 性 文本 解析 已 经 被 证 明 是 一 种 更 为 有 效 的 方法 。 









































在 短语 结构 式 文 本 解析 与 依存 性 文本 解析 之 间 存 在 着 一 个 明显 的 区 别 , 这 点 可 以 从 
它们 所 产生 的 解析 树 上 看 出 来 。 例 如 ， 














人 句 话 的 解析 树 。 





























图 4-2 所 示 的 是 “The big dog chased the cat” 这 





ny 














如 果 我 们 仔细 看 一 下 这 两 棵 解析 树 ， 短 语 结构 树 试图 捕捉 的 首先 是 单词 与 短语 之 间 的 
关系 ， 然 后 再 是 短语 与 短语 之 间 的 关系 。 而 依存 关系 树 则 只 关心 单词 与 单词 之 间 的 依存 关 
系 ， 例 如 big 是 完全 依赖 于 dog 的 。 
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EN 


the big dog Saas dh The big dog chased the cat 
短语 结构 树 依存 关系 树 

















图 4-2 
NLTK 库 也 提供 了 一 些 可 用 于 执行 依存 性 文本 解析 的 方法 。 其 中 一 个 方法 就 是 使 用 基 

















于 概率 的 投射 依存 性 解析 器 (probabilistic, projective dependency parser)， 但 该 解析 器 得 














经 | 











幸运 的 是 ，NLTK 库 也 封装 了 该 解析 器 。 在 下 面 的 例子 中 ， 就 来 看 看 如 何 使 用 NLTK 库 中 








某 个 有 限 训练 数据 集 来 进行 训练 。 依 存 性 解析 器 的 另 一 种 形态 就 是 Stanford 解析 器 。 















































的 Stanford 解析 器 : 


# Stanford Parser [Very useful] 
>>>from nltk.parse.stanford import StanfordParser 
>>>english parser = StanfordParser('stanford-parser.jJar', 'stanfordparser- 
3.4-models .jar') 
>>> english parser.raw parse sents(("this is the english parser test") 
Parse 
(ROOT 
(S 
(NP (DT this)) 
(VP (VBZ is) 
(NP (DT the) (JJ english) (NN parser) (NN test))))) 

Universal dependencies 
nsubj (test-6, this-1) 
cop (test-6, is-2) 
det (test-6, the-3) 
amod (test-6, english-4) 
compound (test-6, parser-5) 
root (ROOT-0, test-6) 
Universal dependencies, enhanced 
nsubj (test-6, this-1) 
cop (test-6, is-2) 
det (test-6, the-3) 
amod (test-6, english-4) 
compound (test-6, parser-5) 
root (ROOT-0, test-6) 
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这 段 输 出 乍 看 之 下 好 像 很 复杂 , 但 其 实 它 一 点 都 不 复杂 。 这 是 一 个 三 段 式 的 结果 列表 ， 
中 第 一 段 输出 的 只 是 给 定 句 子 中 的 POS 标签 及 其 解析 树 。 图 4-3 用 更 为 优雅 的 方式 为 你 
了 相同 的 结构 。 接 下 来 的 第 二 段 输出 的 是 给 定单 词 之 间 的 依存 关系 以 及 它们 各 自 的 位 
。 最 后 的 第 三 段 输出 的 是 这 些 依存 关系 的 扩大 版 : 





















































(engisn)] [parser] 











小 技巧 : 
本 如 果 想 对 Stanford 解析 器 的 使 用 有 一 个 更 好 的 理解 ， 读 
QQ 者 可 以 参考 下 面 链接 中 的 内 容 : 
http://nlpviz.bpodgursky.com/home 
http://nlp.stanford.edu:8080/parser/index.jsp。 


4.6 语 块 分 解 














语 块 分 解 属于 浅 解析 ， 它 并 不 会 深入 到 句子 的 深层 结构 。 在 该 操作 中 ， 我 们 的 目的 是 
尽量 将 句子 分 割 成 一 些 有 意义 的 构成 语 块 。 
将 语 块 定义 成 文本 解析 中 最 小 的 可 处 理 单元 。 例 如 ， 可 以 将 “the President speaks about the 
health care reforms ”这 个 句子 分 解 成 两 个 语 块 。 第 一 个 语 块 是 “the President”， 该 语 块 由 名 
词 主导 ， 所 以 将 其 称 为 名 词 短 语 (NP)。 而 该 句子 的 其 余部 分 则 是 一 个 以 动词 为 主导 的 语 
块 ， 因 而 称 为 动词 短语 (VP)。 如 果 观 察 得 再 仔细 一 些 ， 就 会 发 现 “speaks about the health care 
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reforms” 这 部 分 还 可 以 再 分 出 子 语 块 。 上 具体 来 说 就 是 其 中 还 存在 更 多 的 NP， 因 而 还 可 以 再 

















继续 被 分 解 成 “speaks about” 和 “health care reforms”， 整个 过 程 如 图 4-4 所 示 。 








President speaks about Health Care Reforms 
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图 4-4 





这 种 将 句子 划分 成 各 个 部 分 的 过 程 ， 就 是 之 前 所 说 的 语 块 分 解 。 从 形式 上 来 看 ， 语 块 














分 解 操 作 也 可 以 被 看 作 是 一 种 处 理 接口 ， 作 用 是 识别 出 任意 文本 中 互 不 重 车 的 分 组 。 


上 














现在 ， 已 经 了 解 了 浅 解析 与 深 解析 之 间 的 区 别 。 当 我 们 能 在 CFG 的 帮助 下 进入 到 句子 
的 语法 结构 ， 并 理解 了 这 些 句 子 的 语法 结构 时 。 有 些 时 候 就 需要 用 文本 解析 来 理解 句子 的 

















具体 含义 了 。 当 然 在 另 一 方面 ， 也 有 一 些 情况 是 不 需要 做 如 此 深度 的 分 析 的 。 比 方 说 ， 























对 


于 大 部 分 非 结构 化 文本 ， 一 般 只 会 想 要 提取 其 中 的 关键 短语 、 命 名 实体 或 者 相关 项 目的 特 


















































































































































下 面 ， 我 们 就 写 一 些 代码 来 做 一 些 基本 的 语 块 分 解 : 


# Chunking 
>>>from nltk.chunk.regexp import * 


定 模 式 。 在 这 种 情况 下 ， 要 做 的 是 浅 解析 而 非 深 解 析 ， 因 为 深 解 析 会 去 处 理 所 有 违反 语法 
规则 的 句子 ， 也 会 产生 各 种 不 同 的 语法 树 ， 直 到 解析 器 在 反复 回溯 的 过 程 中 找到 最 佳 的 解 
析 树 。 整 个 过 程 非 常 耗 时 和 繁琐 ， 并 且 即 使 完成 了 所 有 的 这 些 处 理 过 程 ， 也 未 必 会 得 到 正 
确 的 解析 树 。 而 浅 解析 则 可 以 用 语 块 来 保证 其 浅 解 析 结 构 ， 这 种 处 理 相 对 而 言 要 较 快 一 些 。 





>>>test sent="The prime minister announced he had asked the chief government 


whip, Philip Ruddock, to call a special party room meeting for 9am on Monday 
consider the spill motion." 
>>>test_ sent pos=nltk .pos_ tag (nltk .word tokenize (test sent)) 
>>>rule vp = ChunkRule(r' (<VB.*>)? (<VB.*>)+(<PRP>)?', 'Chunk VPs') 
>>>parser vp = RegexpChunkParser([rule vpl],chunk label='VP') 
>>>print parser vp.parse (test sent pos) 
>>>rule np = ChunkRule(r' (<DT>?<RB>?)?<JJ|CD>* (<JJ|CD><,>)* (<NN.*>)+', 
'Chunk NPs') 
>>>parser np = RegexpChunkParser([rule npl],chunk label="NP") 
>>>print parser np.parse (test sent pos) 
(S 
The/DT 
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prime/JJ 

minister/NN 

(VP announced/VBD he/PRP) 
(VP had/VBD asked/VBN) 
the/DT 

chief/NN 

government/NN 

whip/NN 


(VP consider/VB) 


(S 


上 
解 的 过 
符 串 。 


the/DT 
spill/NN 
motion/NN 
ds) 


(NP The/DT prime/JJ minister/NN) # lst noun phrase 
announced/VBD 

he/PRP 

had/VBD 

asked/VBN 

(NP the/DT chief/NN government/NN whip/NN) # 2nd noun phrase 
/i 

(NP Philip/NNP Ruddock/NNP) 

7，/， 

to/TO 

call/VvB 

(NP a/DT special/JJ party/NN room/NN meeting/NN) # 3rd noun phrase 
for/IN 

9am/CD 

on/IN 

(NP Monday/NNP) # 4th noun phrase 

to/TO 

consider/VB 

(NP the/DT spill/NN motion/NN) # 5th noun phrase 
./.) 





述 代 码 已 经 足以 应 付 一 些 划分 动词 、 名 词 短语 之 类 的 基本 语 块 分 解 操作 了 。 语 块 分 
程 中 通常 会 有 一 条 管道 ， 作 用 是 标记 POS 标签 ， 并 为 相关 的 语 块 分 解 器 提供 输入 字 
在 这 里 ， 我 们 使 用 的 是 普通 的 语 块 分 解 器 ， 其 中 的 NP/VP 规则 定义 了 各 种 不 同 的 、 
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可 被 称 之 为 动词 /名 词 短 语 的 POS 模式 。 例 如 ，NP 规则 定义 的 是 所 有 以 限定 词 开头 ， 后 接 
一 个 由 副词 、 形 容 词 或 纯 数字 的 可 被 语 块 分 解 成 一 个 名 词 短语 的 组 合 。 当 然 ， 这 种 基于 一 
股 表 达 式 的 语 块 分 解 器 得 依靠 我 们 手动 设计 分 块 字符 串 来 定义 分 块 规则 。 但 如 果 能 编写 适 
j 于 大 部 分 名 词 短语 模式 的 普 适 规则 , 也 可 以 用 基于 正则 表达 式 的 语 块 分 解 器 来 做 这 件 事 。 
不 幸 的 是 ， 这 类 善 适 性 的 规则 是 很 难 找到 的 。 另 一 种 途径 是 使 用 机 器 学 习 的 方法 来 进行 语 
块 分 解 。 之 前 所 接触 过 的 ne_chunk() 方 法 和 Stanford NER 标注 器 都 使 用 了 同一 个 预 训练 模 
型 ， 可 用 来 标识 名 词 短 语 。 










































































































































































4. 7 信息 提取 























现在 已 经 学 习 了 标注 器 和 解析 器 的 相关 知识 。 利 用 这 些 知 识 ， 就 可 以 构建 出 一 个 基本 
的 信息 提取 GE) 引擎 了 。 下 面 就 直接 来 看 一 个 非常 基本 的 IE 引擎 ， 看 看 如 何 用 NLTK 库 
来 看 开发 一 个 典型 的 正 引擎 。 
任何 稍 有 意义 的 信息 都 可 以 被 绘制 出 来 ， 前 提 是 给 定 的 输入 流 要 跟着 NLP 的 步骤 来 
做 。 我 们 之 前 已 经 对 句子 标识 化 、 词 汇 标识 化 及 词性 标注 有 了 足够 的 了 解 。 下 面 ， 就 来 好 
好 讨论 一 下 NER 和 关系 提取 。 
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个 典型 的 信息 抽取 管道 在 结构 上 都 是 非常 类 似 的 ， 具 体 如 图 4-5 所 示 。 
字符 串 er ee ey 人 
一 >| 句子 标识 化 一 一 >>| 词汇 标识 化 一 一 ”词性 标注 一 一 > 实体 探测 ”一 一 > ”关系 提取 
3 
Ee [a 这 
下 熙 车 
过 这 洲 过 
原生 文本 六 a 全 让 关系 
这 潭 
让 











图 4.5 





、 提示 
| 受 其 他 的 部 分 预 处 理 步骤 ( 比如 停 用 词 移 除 和 词 干 提取 ) | 
往往 会 被 忽略 掉 , 因为 它们 不 会 向 下 引擎 中 添加 任何 值 。 


4.7.1 命名 实体 识别 (NER ) 


已 经 在 上 一 章 中 讨论 过 了 关于 NER 的 一 般 情况 。 从 本 质 上 来 说 ，NER 其 实 是 一 种 提 
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取信 
在 的 

















县 的 方式 ， 它 提取 的 是 一 些 最 常见 的 实体 信息 ， 如 实体 的 名 称 、 所 属 的 组 织 、 以 及 所 
位 置 等 。 然 而 ， 某 些 经 改良 之 后 的 NER 也 可 用 于 提取 一 般 实 体 ， 如 产品 名 称 、 生 物 医 















































学 项 


目 、 作 者 姓名 、 品 牌 名 称 等 。 
下 面 来 看 一 个 很 普通 的 例子 ， 在 该 例子 中 会 给 出 一 个 包含 既定 内 容 的 文本 文件 ， 然 后 






































再 从 











的 预 


等 可 


4.7. 


之 间 














提取 出 一 些 最 有 意义 的 命名 实体 : 











# NP chunking (NER) 

>>>f=open (# absolute path for the file of text for which we want NER) 
>>>text=f£ .read () 

>>>sentences = nltk.sent tokenize (text) 


>>>tokenized sentences = [nltk.word tokenize (sentence) for sentence in 
sentences] 
>>>tagged sentences = [nltk.pos tag(sentence) for sentence in tokenized 
sentences] 


>>>for sent in tagged sentences: 
>>>print nltk.ne chunk (sent) 























在 上 述 代码 中 ， 我 们 只 是 照 着 之 前 图 中 的 相同 的 管道 流程 走 了 一 裔 。 我 们 执行 了 所 有 
处 理 步骤 ,包括 句子 标识 化 、 词 汇 标 识 化 、 词 性 标注 以 及 NLTK 的 NER〔( 预 训练 模型 ) 
用 来 提取 所 有 NER 的 步骤 。 


2 关系 提取 


关系 提取 也 是 一 种 常用 的 信息 提取 操作 。 顾 名 思 义 ， 关 系 提取 就 是 一 个 提取 不 同 实体 
不 同 关 系 的 过 程 。 众 所 周知 ， 实 体 之 间 存 在 着 各 种 各 样 的 关系 ， 如 说 我 们 已 经 熟悉 的 


























































































































继承 、 同 义 、 近 义 等 关系 。 这 里 的 关系 可 以 根据 信息 的 需要 定义 。 例 如 ， 如 果 想 从 非 结 构 
化 文本 数据 找 出 一 本 书 的 作者 是 谁 ， 那 么 这 里 的 作者 身份 就 可 以 是 作者 姓名 与 书 名 之 间 的 


关系 


标记 的 关系 模式 来 进行 提取 。 


要 做 的 是 指定 所 需 的 关系 模式 ， 以 及 该 关系 所 定义 NER 种 类 。 而 且 在 下 面 这 段 代码 中 ， 组 


织 与 



















































































。NLTK 库 中 也 使 用 了 相同 的 正 管道 ， 我 们 可 以 治 用 NER 的 思路 并 使 用 某 种 基于 NER 



















































































在 下 面 的 代码 中 ,使 用 了 ieer 的 内 置 语料库 ， 它 会 对 句子 进行 NER 标注 ， 这 里 唯一 需 


















































位 置 之 间 的 关系 已 经 被 定义 好 了 ， 要 提取 的 是 这 些 模式 的 所 有 组 合 。 这 段 代 码 的 应 用 





























方式 有 很 多 种 ， 例 如 ， 在 一 个 非 结构 化 文本 的 大 型 语料库 中 ， 可 以 利用 相关 的 位 置 来 识别 
出 感 兴趣 的 组 织 : 
































>>>import re 
>>>IN = re.compilel(r' .*\bin\b(?!\b.+ing)') 
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>>>for doc in nltk.corpus.ieer.parsed docs('NYT 19980315 ' ) : 

>>> for rel in nltk.sem.extract rels('ORG', 'LOC', doc, corpus='ieer', 
pattern = IN): 

>>>print(nltk.sem.rtuple (rel)) 

[ORG: u'WHYY'] u'in' [LOC: u'Philadelphia'] 

[ORG: u'McGlashan &AMP; Sarrail'] u'firm in' [LOC: u'San Mateo'] 

[ORG: u'Freedom Forum'] u'in' [LOC: u'Arlington'] 

[ORG: u'Brookings Institution'] u', the research group in' [LOC: 
u'Washington'] 

[ORG: u'Idealab'] u', a self-described business incubator based in' [LOC: 
u'Los Angeles'] 


4.8 小结 


析 和 信息 提取 。 首 先 ， 详 细 讨 论 了 文本 解析 技术 ， 介 绍 了 一 些 可 用 的 解析 器 ， 以 及 如 何 用 
NLTK 库 来 执行 NLP 中 的 文本 解析 。 接 着 ， 我 们 带 你 了 解 了 CFG 和 PCFG 的 概念 ， 以 及 
如 何 从 一 个 树 状语 料 库 学 到 东西 ， 并 构建 出 一 个 解析 器 。 最 后 ， 还 讨论 了 浅 解析 与 深 解析 ， 
以 及 这 两 者 之 间 的 区 别 。 








本 章 终于 越过 了 基本 的 预 处 理 步 又 ， 更 深入 探索 了 一 些 NLP 技术 ， 其 中 包括 了 文本 解 



























































另外 ， 本 章 也 谈 到 了 一 些 与 信息 提取 相关 的 基础 知识 ， 包 括 实体 提取 和 关系 提取 。 我 





们 介绍 一 个 典型 的 、 可 充当 信息 提取 引擎 的 管道 。 而 且 正如 你 所 见 ， 用 不 到 100 行 的 代码 
构建 了 一 个 非常 小 巧 简单 的 正 引擎。 请 想象 一 下 ， 这 种 系统 运行 在 整个 转 储 程序 上 ， 或 者 


将 整个 网 页 内 容 关 联 到 某 个 组 织 上 时 的 感觉 。 这 会 很 酶 的 ， 不 是 吗 ? 
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对 于 本 章 所 学 习 的 这 些 话题 ， 在 未 来 的 章节 中 用 到 它们 ， 并 利用 其 中 的 一 些 技术 构建 





























些 有 用 的 NLP 应 用 。 
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这 一 章 要 来 具体 讨论 一 下 NLP 应 用 。 也 就 是 说 ， 接 下 来 会 将 用 到 之 前 章节 所 学 到 的 所 
有 概念 ， 看 看 用 这 些 概念 究竟 能 开发 出 何 种 应 用 程序 。 因 此 ， 这 将 会 是 一 个 完全 需要 动手 
实践 的 章节 。 在 前 面 的 章节 中 , 已 经 学 习 了 所 有 NLP 应 用 都 需要 执行 的 大 部 分 预 处 理 步 又 ， 
了 解 了 如 何 使 用 标识 器 、POS 标签 、NER 以 及 如 何 进行 文本 解析 。 本 章 要 提供 的 是 一 种 思 
路 ， 让 你 了 解 应 该 如 何 运用 之 前 所 学 到 的 知识 开发 出 一 些 复杂 的 NLP 应 用 。 


如 今 ， 现 实 世 界 中 已 经 存在 着 非常 多 的 NLP 应 用 程序 ， 如 Google Search、Siri、 机 器 翻 
译 、Google News、Jeopardy" 和 拼写 检查 等 都 是 一 些 大 家 耳熟能详 的 例子 。 这 其 中 的 一 些 技 
术 是 业界 人 士 多 年 来 的 研究 成 果 ， 他 们 将 这 些 技术 应 用 到 了 当前 的 水 平 。NLP 大 复杂 了 ,下 
如 之 前 章节 中 所 讲 到 的 那样 ， 像 POS 和 NER 这 样 的 预 处 理 步骤 大 部 分 也 还 都 是 研究 性 的 
问题 。 但 通过 使 用 NLTK 库 ， 我 们 已 经 在 恰当 的 精确 度 范围 内 解决 了 其 中 的 许多 问题 。 本 
书 不 会 涉及 机 器 翻译 和 语音 识别 这 样 较为 复杂 的 应 用 。 但 你 现在 应 该 已 经 具备 了 足够 多 的 
背景 知识 ， 也 是 时 候 去 了 解 该 领域 的 一 些 基本 应 用 了 。 作 为 一 个 NLP 爱好 者 ， 我 们 应 该 对 
这 些 NLP 应 用 有 一 个 基本 的 了 解 。 建 议 读 者 可 以 去 互联 网 上 找 一 些 NLP 应 用 来 看 看 ， 
试 着 去 了 解 它们 。 

总 而 言 之 ， 本 章 主要 包括 以 下 内 容 。 

。 为 读者 介绍 儿 个 常见 的 NLP 应 用 。 

。 利用 到 目前 为 止 所 学 习 的 知识 开发 一 个 NLP 应 用 (新 闻 摘 要 器 )。 

。 介绍 不 同 NLP 应 用 的 侧重 点 ， 以 及 它们 各 上 自 的 基本 细节 。 
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QD 译 者 注 : 这 是 一 款 文字 类 问答 游戏 ， 这 些 问答 题 非常 考验 玩家 的 英文 水 平 、 以 及 各 个 领域 的 知识 。 玩 家 要 有 能 力 解析 题目 
中 的 隐 史 含 义 ， 反 讽 或 者 谜 题 。 这 也 是 目前 计算 机 最 欠缺 的 能 力 。 
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5.1 构建 第 一 个 NLP 应 用 

















先 来 看 一 种 非常 复杂 的 NLP 应 用 : 信息 摘要 (summarization )。 该 应 用 的 概念 非常 简 
单 ， 对 于 所 提供 的 文章 、 短 文 、 故 事 ， 通 常会 需要 针对 其 内 容 自 动 生成 摘要 。 事 实 上 ， 信 息 
摘要 这 个 应 用 需要 具备 一 些 深 层次 的 NLP 知识 , 因为 这 里 需要 了 解 的 不 单 是 句子 的 结构 ， 而 
是 整个 文本 的 结构 ， 除 此 之 外 ， 还 得 要 了 解 该 文本 的 体裁 和 主题 内 容 。 
鉴于 这 一 切 看 上 去 都 太 过 于 复杂 ， 所 以 还 是 先 来 尝试 一 种 很 直观 的 方法 吧 。 假 设 这 里 
所 要 做 的 信息 摘要 是 针对 句子 的 重要 性 和 意义 进行 一 次 排名 。 为 此 ， 要 在 理解 句子 的 基础 
上 创建 一 系列 规则 ， 然 后 用 目前 为 止 所 学 到 的 处 理工 具 来 对 新 闻 文 章 进行 一 些 可 接受 的 信 
息 摘 要 处 理 。 
在 下 面 的 例子 中 ， 我 们 会 将 从 纽约 时 报 上 搜刮 来 的 一 篇 文章 保存 在 nyt.txt 这 个 文本 文 
件 中 。 这 里 要 对 这 篇 新 闻 稿 进行 信息 摘要 。 下 面 就 来 创建 一 个 个 人 版 的 Google News 吧 。 
一 开始 ， 需 要 记 住 一 件 事 : 在 通常 情况 下 ， 拥 有 较 多 实体 和 名 词 的 句子 的 重要 性 往往 
会 相对 比较 高 。 现 在 的 任务 是 要 用 某 种 可 被 标准 化 的 统一 逻辑 来 计算 重要 性 评分 
(importance score)。 即 如 果 想 获取 前 n 个 句子 的 信息 情况 ， 就 要 去 选择 一 个 重要 性 评分 的 
阔 值 。 
现在 来 看 看 新 闻 稿 的 内 容 。 在 这 里 ， 你 也 可 以 选择 将 这 篇 新 闻 稿 以 纯 新 闻 内 容 的 形式 
转 储 到 一 个 文本 文件 中 。 内 容 具体 如 下 : 
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>>>import sys 

>>>f=open('nyt.txt','r') 

>>>news_content=f .read () 

""" President Obama on Monday will ban the federal provision of some types 
of military-style equipment to local police departments and sharply restrict the 
availability of others, administration officials said. 


The ban is part of Mr. Obama's push to ease tensions between law enforcement 
and minority communities in reaction to the crises in Baltimore; Ferguson, Mo.; 
and other cities. 

blic." It contains dozens of recommendations for agencies throughout the 
Country.""" 




















一 旦 要 对 这 段 新 闻 内 容 进行 解析 ， 就 需 整个 新 闻 稿 分 解 成 一 个 句子 列表 。 这 样 ， 就 回 
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到 了 之 前 讨论 过 的 句子 标识 器 上 了 ， 后 者 会 将 整个 新 闻 片 段 分 解 成 若干 个 句子 。 在 这 里 ， 
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我 们 会 提供 一 些 句 型 编号 ， 便 于 识别 这 些 句 子 并 对 其 进行 排名 。 一 旦 得 到 了 这 些 甸子， 我 






































们 会 让 其 在 单词 标识 器 中 过 一 这， 最 后 再 来 过 NER 标注 器 和 POS 标注 器 。 





>>>import nltk 
>>>results=[] 
>>>for sent no,sentence in enumerate (nltk.sent tokenize (news content)): 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


no_of tokens=len (nltk .word tokenize (sentence)) 

#print no of toekns 

# Let's do POS tagging 

tagged=nltk .pos tag (nltk.word tokenize (sentence)) 

# Count the no of Nouns in the sentence 

no_of nouns=len( [word for word,pos in tagged if pos in ["NN","NNP"] ]) 
#Use NER to tag the named entities. 

ners=nltk.ne chunk (nltk .pos tag (nltk .word tokenize (sentence) ) ， 


binary=False) 


>>> 
>>> 
>>> 
>>> 


no of ners= len([chunk for chunk in ners if hasattr (chunk, 'node')]) 
Score= (no of nerstno of nouns) /float (no of toekns) 


results.append((sent no,no of tokens,no of ners,\ 


no _ of nouns,score,sentence)) 








在 上 面 的 代码 中 ， 我 们 对 一 个 句子 列表 进行 了 迭代， 并 根据 公式 计算 出 了 这 些 句 子 的 























评分 。 当 然 ， 该 公式 只 是 个 以 被 标识 实体 为 分 子 ， 以 普通 标识 词 为 分 母 的 分 子 式 。 我 们 会 
将 所 有 的 这 些 结果 创建 成 一 个 元 组 。 






































现在 ， 结 果 就 是 一 个 包含 了 所 有 评分 的 元 组 ， 例 如 其 中 的 名 词 数量 、 实 体 数 量 等。 下 


面 来 对 训 











分 来 一 个 降序 排序 ， 代 码 如 下 


>>>for sent in sorted(results,key=lambda x: xX[4],zeverse=Tue) : 


>>> 


print sent[5] 








这 样 一 来 ， 就 完成 了 对 这 些 句子 的 排名 。 你 会 为 这 篇 新 闻 稿 能 得 到 这 样 的 结果 而 感到 


惊讶 。 














一 旦 有 了 no_of nouns 和 no_of ners 的 评分 列表 ， 就 可 以 围绕 它们 去 建立 一 些 更 复杂 


的 规则 。 


后 一 句 也 会 对 整个 故事 做 一 个 总 结 。 




















例如 ， 一 篇 典型 的 新 闻 稿 通常 都 会 在 文章 的 开头 来 一 个 主题 说 明 ， 并 在 文革 的 最 









































可 以 修改 之 前 那 段 代码 ， 将 上 述 风 辑 整 合 进 去 吗 ? 


异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





5.1 构建 第 一 个 NLP 应 用 59 






































当然 ， 这 种 信息 摘要 应 用 中 还 包含 着 男 一 种 理论 逻辑 ， 重 要 的 句子 中 通常 包含 着 重要 
的 词汇 ， 而 跨 语 料 库 的 差异 词 (discriminatory word) 绝 大 多 数 都 是 重要 的 词汇 。 因 此 ， 只 


要 句子 中 包含 具有 很 大 差异 性 的 词汇 ， 它 就 是 重要 的 。 这 样 ， 就 得 到 了 一 个 非常 简单 的 测量 
方法 ， 就 是 计算 每 个 词 各 自 的 TF-IDF (term frequency-inverse document frequency) “分 
值 ， 然 后 根据 词汇 的 重要 性 找 出 一 种 标准 化 的 平均 评分 。 这 个 评分 就 可 以 用 来 充当 在 信息 
摘要 中 选取 句子 的 标准 。 


为 了 解释 清楚 概念 ， 这 里 不 会 拿 整 篇 文章 来 举例 ， 这 里 将 只 采用 文章 的 前 三 个 句子 。 
下 面 ， 就 来 看 看 如 何 用 寥寥 几 行 代码 实现 这 个 复杂 的 东西 : 






















































































































































































提示 : 
，、 ”这 段 代 码 需 要 你 安装 一 下 scikit 库 。 如 果 你 已 经 安装 
anaconda 或 canopy， 那 么 其 实 就 已 经 安装 了 这 个 库 ， 否 
则 请 按照 下 面 链接 中 的 指示 安装 scikit: 
http://scikit-learn.org/stable/install.html., 





>>>import nltk 

>>>from sklearn.feature extraction.text import TfidfVectorizer 

>>>results=[] 

>>>news_content="Mr. Obama planned to promote the effort on Monday during 
avisit to Camden, N.J. The ban is part of Mr. Obama's push to ease tensions between 
law enforcement and minority \communities in reaction to the crises in Baltimore; 
Ferguson, Mo. We are, without a doubt, sitting at a defining moment in American 
policing, Ronald L. Davis, the director of the Office of Community Oriented 
Policing Services at the Department of Justice, told reporters in a conference 
call organized by the White House" 


>>>sentences=nltk.sent tokenize (news content) 


>>>vectorizer = TfidfVectorizer (norm='12', min df=0, use idf=True, smooth 
idf=False, sublinear tf=True) 


>>>sklearn binary=vectorizer.fit transform(sentences) 
>>>print countvectorizer.get feature_names () 
>>>print sklearn binary.toarray () 


























Q@ 译 者 注 : TF-IDF 是 一 种 统计 方法 ， 主 要 用 来 评估 某 一 单词 在 一 个 文件 集 或 某 个 语料库 中 茶 一 份 文件 的 重要 程度 。 单 词 的 重 
要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 它 在 语料库 中 出 现 的 频率 成 反比 下 降 。TF-IDF 加 权 的 各 种 形式 常 
被 搜索 引擎 应 用 ， 作 为 文件 与 用 户 查询 之 间 相关 程度 的 度量 或 评级 。 
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>>>for i in sklearn binary.toarray () : 


>>> 


results.append (i.sum()/float (len (i.nonzero() [0])) 





上 述 代 码 用 到 了 一 些 未 知 的 方法 ， 如 说 TfidfVYectorizer()， 这 是 一 个 评分 方法 ， 它 会 为 














给 定 句子 列表 中 每 个 句子 计 











更 详细 地 来 讨论 它 。 











作为 输 

现在 , 我 们 从 所 
后 者 的 每 一 个 元 素 者 
应 该 就 可 以 看 到 一 此 





Ne 


[| 
lo 








它 将 会 给 出 每 个 句子 所 对 应 的 











本 章 先 暂且 将 
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3 平 


Vv 











有 的 句子 中 得 至 
代表 了 
































已 














会 得 到 一 个 很 高 的 识 


单词 来 得 出 TF-IDF 





出 一 个 TF-IDF 评分 的 向 


F 分 ， 并 且 还 会 提 


上 了 一 个 容纳 所 有 单词 的 字 
个 单词 所 被 赋予 的 TF-IDF 评分 。 如 
停 用 词 的 评分 是 接近 0 的 ， 
分 。 一 旦 在 代码 中 获得 了 这 些 数据 , 就 可 以 通过 那些 TF-IDF 值 非 零 的 


三 


恒 。 
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以 及 


出 一 个 term- 


现在 先 别 操心 这 个 , 我 们 以 后 会 
视 为 一 个 黑 盒子 函数 ， 即 对 于 一 个 给 定 的 句子 /文档 列 


doc 的 和 矩阵， 以 








个 评分 列表 的 列表 ， 





四 
木 体 


而 一 些 差 寞 词 ( 如 b 





an 























的 平均 分 值 。 最 后 会 得 到 























你 一 定 会 为 这 个 简单 的 算法 能 得 到 这 样 的 结果 而 感到 惊讶 。 现 在 ， 我 ; 
盟 于 自己 的 新 闻 
息 摘 要 处 理 ， 并 
摘要 程序 ， 但 它 与 信 ， 


做 好 了 所 有 的 准备 ， 

















对 任意 两 篇 给 定 的 新 闻 稿 进行 信 ， 
实现 一 个 相对 还 不 错 的 信 ， 
还 差 得 很 远 。 建 议 读者 多 去 找 一 些 信息 摘要 方面 的 文献 来 阅读 。 同 时 








人 
与 第 


个 个 方法 类 似 的 评 








到 的 是 正确 的 结果 ， 
和 Obama) 则 





: 阴 刘 ， 


过 而 



































可 以 去 编写 














摘要 器 了 。 该 摘要 器 会 利 























1 上述 两 种 算法 











下 
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[NI 

















混合 使 用 这 两 种 信息 地 


其 他 NLP 应 用 








些 其 他 的 NLP 应用， 其 








商 要 的 方法 。 





获取 不 错 的 摘要 结果 。 虽 然 这 种 方法 可 以 
昌 摘 要 方面 的 当前 研究 水 平 相 比 ， 实 际 上 
|， 也 希望 读者 能 试 着 


























9.2 
另外 还 有 
索 、 信 息 提 取 、 主 题 


常 难 以 实现 的 NLP 任务 ， 相 关 的 领域 仍 在 进行 
舌 题 ， 但 既然 是 在 学 习 NLP， 就 应 该 先 要 对 这 些 应 月 





的 一 些 i 















































划分 和 话语 分 析 。 这 





























5.2.1 机 器 翻译 


对 机 器 番 




















一 旦 理 





有 译 (machine translation ) 
翻译 成 男 一 种 语言 的 。 我们 会 在 头脑 
解 了 句子 的 含义 ， 就 会 试 着 将 原始 语言 中 的 单词 奉 换 成 
在 替换 过 程 中 ， 遵 守 目 标语 言 的 语法 规则 ， 以 便 最 终 实 现 正 


目 . 4 


最 简单 

















包括 了 文本 分 类 、 机 器 翻译 、 语 音 识 别 、 信 息 检 
其 中 有 一 些 问题 其 实在 目前 水 平 下 都 还 是 一 个 非 





着 大 量 的 研究 。 下 一 章 将 会 深入 地 讨论 其 中 
的 基本 情况 有 一 








个 了 解 。 


























直接 的 



































AN 





里 解 方法 就 是 知道 如 何 将 某 种 语言 




















FPF 对 相关 句子 的 结构 进行 解析 ， 以 便 试 着 理解 该 句子 。 




















标语 言 的 对 应 词汇 。 











且 




















的 翻译 。 
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大 致 上 而 言 ， 机 器 翻译 就 是 图 5-1 所 示 的 那样 一 个 金字 塔 状 的 过 程 。 如 果 以 原始 语言 


日 TFT 百 
































的 文本 为 出 发 点 ， 就 必须 先 对 目标 句子 进行 标识 化 处 理 ， 后 者 会 被 解析 成 树 状 结构 《〈 简 而 
言 之 就 是 它 的 语法 结构 )， 以 确保 这 些 句 子 的 正确 表达 。 紧 接着 就 是 语义 结构 ， 它 包含 了 这 
些 句 子 所 表达 的 含义 ， 然 后 ， 就 来 到 了 中 间 语 言 这 个 层面 ， 该 中 间 语 言 是 一 种 独立 于 


所 有 语言 之 外 的 抽象 状态 。 到 目前 为 止 ， 人 们 已 经 开发 出 了 多 种 翻译 方法 ， 这 些 方法 
9 走向 越 接近 上 述 金 字 塔 的 塔 项 ， 就 越 需要 用 到 NLP 技术 。 因 此 ， 根 据 各 种 不 同 的 翻 


译 


对 层次 ， 可 以 使 用 不 同 的 方法 来 应 对 。 下 面 就 来 看 看 其 中 的 两 种 方法 。 
























































号 下 








































































中 间 语 言 


语义 组 合 六 语义 分 解 


单词 结构 


词法 生成 
原始 文本 目标 文本 





词法 分 析 








图 5-1 




















。 直接 翻译 : 这 更 像 是 一 种 基于 字典 的 机 器 翻译 ， 当 拥有 大 型 语料库 以 及 海量 的 目标 
语言 词汇 时 ， 依 赖 于 相关 语言 的 大 型 语料库 来 实现 某 种 类 型 的 翻译 应 用 是 可 能 包 
而 且 因 它 简单 比较 流行 。 

。 语法 翻译 : 这 种 翻译 方法 会 试 着 去 构建 一 个 针对 原始 语言 的 解析 器 。 到 目前 为 止 ， 

人 们 已 经 累积 了 各 种 各 样 的 关于 解析 问题 的 方法 。 其 中 有 些 深 层 解析 器 实际 上 已 经 

拥有 了 处 理 一 部 分 语义 的 能 力 。 一 旦 解决 了 解析 器 ,目标 词汇 的 替换 问题 就 迎 刃 而 

解 了 ， 目 标 解析 器 会 自行 产 出 最 终 的 目标 语言 的 句子 。 























































































































5.2.2 ”统计 型 机 器 翻译 


统计 型 机 器 翻译 (Statistical machine translation， 简 称 SMT)， 是 一 种 最 新 型 的 机 器 翻译 
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Ph， 人 们 提出 了 各 种 运用 统计 学 的 方法 ， 几 乎 涵盖 了 机 器 翻译 方面 的 所 
背后 的 思路 是 依靠 所 拥有 的 海量 语料库 、 并 行 化 文本 以 及 可 用 目标 语 





方法 。 在 这 种 方法 
有 方面 。 这 一 类 算法 
























































言 产生 语言 翻译 的 语言 模型 。Google Translate 就 是 一 个 很 好 的 SMT 应 用 实例 ， 它 会 从 不 





同 语言 的 语料库 中 学 习 3 




















5.2.3 ”信息 检索 


在 人 \ 
言 息 以 条 


(Information retrieval， 简 称 IR)〉 也 是 最 受 欢 迎 且 被 广泛 使 用 的 NLP 应 用 


























站 相关 信息 ， 并 围绕 这 些 信 息 来 创建 SMT 应 用 。 















































之 一 。 这 类 应 用 最 好 的 实例 就 是 Google Search， 它 会 根据 既定 的 用 户 输入 ， 利 用 信息 检索 








简 而 言 之 























书 中 出 现 过 的 
看 一 份 典 型 的 











单词 的 


算法 检索 出 与 用 户 查询 相关 的 信息 。 

















，IR 就 是 一 个 根据 用 户 需 求 来 获取 最 具 相 关 性 的 信息 的 过 程 。 在 这 里 系统 可 
以 用 多 种 不 同 的 方式 来 查找 信息 ， 当 然 最 终 必须 要 能 检索 出 最 具 相 关 性 的 信息 。 

典型 的 IR 系统 的 做 法 是 要 生成 一 种 索引 机 制 , 我 们 称 之 为 反 向 索引 (inverted index )。 
这 类 机 制 与 书籍 所 使 用 的 索引 方案 非常 相似 ， 我 们 通常 会 在 一 本 书 的 最 后 一 页 上 找到 整 本 




















poslist: 











< Term , DocFreq, [DocIdl ,DocId2] > 
{"the",2 --->[1,2] } 


{ "US" 1 


--->[2] } 


{"president",2 --->[1,2] } 



































如 果 有 任何 单词 同时 
文档 列表 。 
索 模型 操作 的 是 不 同 数据 类 型 。 
1. 布尔 检索 
在 布尔 模 





poslist 的 交集 。 











现在 文档 1 和 文档 2 












































份 索 引 。IR 系统 也 会 创建 一 份 类 似 的 反 向 索引 的 poslist。 下 面 就 来 














FP， 出 处 列表 中 就 会 有 一 份 指 向 该 单词 的 





旦 搞定 了 数据 结构 的 类 型 ， 就 可 以 将 其 应 用 到 不 同 的 检索 模型 中 。 不 同 的 检 
下 面 就 来 介绍 其 中 的 几 个 。 




















型 中 ， 只 需要 在 poslist 上 执行 某 种 布尔 操作 即 可 。 例 如 ， 如 果 正 在 执行 类 似 
于 “US president” 这 样 的 搜索 查询 ， 系 统 就 应 该 去 查询 “US” 和 “president” 这 两 个 单词 








{US} {president}=> [2] 


在 这 里 ， 第 二 个 文档 被 证 明 是 具有 相关 性 的 文档 。 


2. 向 量 





空间 模型 




















向 量 空间 模型 (vector space model, 简称 VSM) 的 概念 来 自 于 几何 学 。 它 会 以 可 视 化 
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的 方式 将 文档 以 向 量 的 形式 表示 在 高 维度 的 词汇 空间 中 。 因 此 ， 每 个 文档 在 该 空间 中 都 可 

以 各 自用 一 个 向 量 来 表示 。 虽 然 向 量 的 表示 方式 各 不 相同 , 但 TF-IDF 无 疑 是 其 中 最 为 实用 

而 有 效 的 方式 之 一 。 
对 于 给 定 的 单词 和 语料库 ,它们 的 单词 频率 (CTF) 和 逆 文 档 频率 (IDF ) 的 计算 公式 如 下 : 
0.5x f(t,q) 

max{f(w,ad):wedad} 




























































































tf(1,4)=0.5+ 


























在 这 里 ，TF 指 的 只 是 单词 在 文档 中 的 出 现 频率 。 而 IDF 则 指 的 是 文档 频率 的 反比 值 
也 就 是 该 语料库 中 出 现 该 单词 的 文档 数 的 累计 值 : 























~ 





























idf(1,D)=log 
|{deD:ted!}| 





虽然 这 些 公式 的 标准 变化 各 种 各 样 ， 但 可 以 将 它们 合 二 为 一 ， 创 建 一 个 更 可 靠 的 评分 
机 制 来 为 文档 中 的 各 个 单词 评分 。 想 要 获得 TF-IDF 评分 ， 还 需要 将 这 两 个 评分 相 乘 : 
tfidftt,d, D)=tf (t,q) xidf(t, D) 





















































在 TF-IDF 中 ， 我 们 所 评分 的 是 一 个 单词 在 当前 文档 中 出 现 的 次 数 和 它 在 语料库 间 的 散播 
程度 。 这 让 我 们 认识 到 一 个 事实 ， 即 跨 语料库 且 出 现 频 率 高 的 单词 并 不 常见 。 因 此 可 以 区 别 检 
索 这 些 文档 。 上 一 节 也 使 用 了 TF-IDF， 用 来 描述 信息 摘要 器 。 相 同 评分 的 文档 可 用 一 个 向 量 
来 表示 。 一 旦 将 所 有 文档 都 表示 成 了 某 种 向 量 形式 ， 接 下 来 就 可 以 制定 向 量 空间 模型 了 。 

在 VSM 中 ， 用 户 的 搜索 查询 也 被 当 作 是 一 种 文档 并 表示 成 一 个 向 量 。 直 观 地 看 ， 通 
过 计算 这 两 种 向 量 间 的 点 积 可 以 获得 目标 文档 与 用 户 查询 之 间 的 余弦 相似 度 。 

在 图 5-2 中 ， 可 以 看 到 这 些 相 同 的 文档 可 以 用 各 单词 轴线 来 表示 ， 查 询 Obama 与 D1 
的 相关 性 要 高 于 D2。 因 此 该 查询 的 文档 相关 性 评分 可 表示 如 下 : 














































































































































































































D2 
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3. 概率 模型 


N 
di 9 pe Wi,j» Wi,g 


lla VS 








sim(d,,q)= 




















概率 模型 会 试 并 
决 于 用 户 查 询 和 文档 





























去 评估 相关 文档 被 用 户 所 需要 的 概率 。 该 模型 会 假设 这 个 相关 概率 取 
表示 方式 。 主 要 思路 是 某 文档 出 现在 相关 性 集合 中 ， 但 不 存在 于 非 相 
关 性 集合 中 。 下 面 ， 用 dj 来 表示 文档 ，q 表示 用 户 的 查询 ，R 表示 文档 的 相关 性 集合 ，P 







































































表示 非 相关 性 集合 。 那 么 这 里 的 评分 计算 应 该 如 下 : 





六 P(R|d,) 

sim(d ;9)= 一 -一 一 

P(R|d,) 

提示 : 

如 果 想 了 解 更 多 关于 IR 的 话题 ， 推 荐 你 可 以 阅读 一 下 
下 面 链接 中 的 内 容 : 


http://nlp.stanford.edu/IR-book/html/ 
htmledition/irbook.htmil. 


5.2.4 语音 识别 


语音 识别 是 一 个 
着 解决 这 个 问题 ， 上 
观 。 即 需要 将 一 段 给 


音 序列 ， 我 们 称 之 为 


















































非常 古老 的 NLP 问题 。 人 们 上 自 第 一 次 世界 大 战 时 代 以 来 就 一 直 在 尝试 
前 它 还 仍然 是 计算 领域 最 热门 的 话题 之 一 。 这 个 问题 的 思路 其 实 很 直 









































定 的 某 个 人 的 语音 转换 成 文本 。 与 语音 相关 的 问题 都 需要 生成 一 个 声 























音素 (phonemes )， 这 是 非常 难以 处 理 的 ， 因 此 语音 分 割 本 身 就 是 一 



































个 大 问题 。 只 要 语音 


是 可 处 理 的 ， 那 么 下 一 步 就 可 以 通过 一 些 可 用 的 训练 数据 来 形成 某 种 











约束 〈 模 型) 了， 这 
成 某 种 方 框 ， 就 会 发 
建 模 涉 及 的 是 基于 音 
进行 的 ， 它 要 将 各 个 
来 进行 的 。 






























































里 就 涉及 重度 的 机 器 学 习 应 用 了 。 如 果 用 图 示 法 将 这 个 应 用 约束 表示 
现 这 个 方 框 应 该 会 是 整个 系统 中 最 复杂 的 组 件 之 一 。 其 中 ， 它 的 声学 


























素 的 建 模 ， 而 词汇 模型 所 要 解决 的 模型 问题 是 基于 小 型 








4 的 句子 分 段 来 

















分 段 的 含义 关联 起 来 。 单 独 的 语言 建 模 都 是 基于 单元 词法 和 二 元 词法 








一 旦 构建 好 了 这 些 模 型 ， 就 会 用 它们 来 处 理 相 关 的 语句 表达 。 当 这 些 初始 化 处 理 过 程 


完成 之 后 ， 就 会 对 这 


























些 语句 进行 那些 声学 的 、 词 汇 的 以 及 语言 建 模 上 的 处 





里 ， 产 生 相 关 的 
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标记 并 输出 ， 如 图 5-3 所 示 。 





过 


训练 数据 


词汇 模型 





被 识别 单词 





5.2.5 ”文本 分 类 


文本 分 类 是 NLP 问题 中 非常 有 趣 且 常见 的 应 用 。 在 日 常 工作 中 ,我 们 会 需要 与 许多 文 
本 分 类 器 进行 交互 。 例 如 所 使 用 的 垃圾 邮件 过 滤器 、 优 先 收 件 箱 、 新 闻 聚 合 器 等 ， 所 有 的 
这 些 都 是 用 文本 分 类 技术 所 构建 的 应 用 。 
文本 分 类 是 一 个 定义 明确 且 部 分 已 经 得 到 解决 的 问题 ， 已 被 用 于 多 个 领域 。 一 般 情 
况 下 ， 所谓 文 本 分 类 本 质 上 就 是 一 个 利用 单词 或 者 词组 对 文本 文档 进行 分 类 的 过 程 。 虽 
然 这 是 一 个 典型 的 机 器 学 习 问 题 ， 但 文本 分 类 中 所 用 到 的 许多 预 处 理 步 又 都 来 自 NLP 


问题 。 


下 面 ， 就 来 看 看 文本 分 类 应 用 的 抽象 图 ， 如 图 5-4 所 示 。 

























































































































































































T 
D, Wi Wi “Wh 
D, w W WwW pos/ 
标识 化 处 理 停 用 词 词 干 提取 词性 标注 ee t | | 文本 分 类 器 nee 
预 处 理 过 程 f . : : 
D， Win Wn Wan 








图 5-4 






































如 图 所 示 ， 我 们 手 里 现在 有 的 一 堆 文 档 组 成 了 一 个 类 集合 。 在 这 里 为 了 让 事情 简单 一 
点 ， 只 讨论 了 用 二 进 制 来 进行 /0 分 类 的 情况 。 即 假设 这 是 在 解决 一 个 垃圾 邮件 检测 的 问 
题 ， 用 1 来 表示 垃圾 邮件 ， 而 0 则 表示 不 被 视 为 垃圾 邮件 的 正常 文本 。 
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在 


必要 性 取决 于 要 解决 的 是 何 利 
需要 根据 某 特 和 
一 个 词汇 文档 矩阵 〈Term 
表 , 它 的 列 和 行 都 是 文档 。i 
简称 BOW) 表示 法 。 可 以 通过 加 权 方 案 将 其 转变 为 TF、TF-IDF、Bernoulli 
频 表示 法 。 
此 之 外 , 还 可 以 通过 如 给 定 特 征 的 POS、 上 下 文 语 境 的 POS 等 其 他 方式 来 进行 特征 
以 获取 比 NLP 本 身 更 大 的 特征 空间 。 一 旦 生成 了 相关 的 TDM， 文 本 分 类 问题 就 变 
型 的 监督 型 / 非 监 督 性 分 类 问题 : 即 对 于 给 定 的 一 组 样本 ， 要 预测 它们 各 自 的 分 类 。 
f 题 。 这 绝对 是 NLP/ML 领域 ) 


除 
导入 。 
成 了 上 典 


下 一 童 会 专门 讨论 这 个 


业 级 的 应 用 。 


其 


分 类 、 
5.2.6 


信 





新 闻 








这 个 处 理 过 程 中 ,会 涉及 一 些 2 





前 章节 


所 


































































































中 有 一 些 还 是 日 常生 活 中 最 党 
下 一 


分 类 、 专 利 分 类 等 。 下 


信息 提取 





类 型 的 文本 分 类 问 
工程 的 情况 来 放弃 部 分 的 预 处 理 








。 因 








题 
-上 






































评分 机 制 


FP 的 一 个 辉 烛 应 月 


]， 例 如 情绪 分 析 、 垃 圾 由 
章 会 更 具体 地 讨论 文本 分 类 的 问题 。 


的 预 处 理 步骤 。 其 中 有 些 步骤 的 
此 在 菜 些 少见 的 情况 下 ， 我 们 会 








步 又。 该 特性 工程 的 最 终 目 标 是 要 生成 
doc matrix， 简称 TDM)， 其 中 保存 的 是 整个 语料库 的 词汇 
玄 矩 阵 所 表现 的 是 一 利 






































| 的 是 词 袋 (Bag of word， 
等 其 他 词 


二 





























都 是 商 





日 往往 











~ 


























8 件 


b 件 分 类 、1 





电子 























息 提 取 (IE)〉 是 从 非 结构 化 文本 

















广泛 使 


生成 某 种 结构 化 付 


来 部 团 
个 非 党 








3 且 非 常 重 要 的 应 用 。 






































通常 情况 下 ， 信 ， 





提取 有 




















意义 的 信息 的 过 程 。 同 时 ，IE 也 是 一 种 被 
息 提 取 的 引擎 会 利用 海量 的 非 结构 化 文档 来 
结构 化 的 知识 库 (knowledge base， 简 称 KB)， 然 后 














再 围绕 着 该 知识 库 























、 构 建 相 关 的 应 用 。 举 个 简单 
不 错 的 知识 本 体 (ontology )。 











的 例子 ， 














组 海量 的 非 结 构 化 的 文本 文档 来 生成 一 
Dbpedia 就 是 这 样 的 一 个 项 目 ，Wikipedia 中 所 有 的 





文章 都 被 用 作 了 产生 知识 本 体 的 构件 ， 这 些 构 件 之 间 都 有 着 一 些 相 互联 系 或 者 其 他 形式 


的 关系 
信 





上 县 提取 主要 有 两 种 方式 ; 

基于 规则 的 提取 : 该 方法 会 
寻找 一 些 被 预定 义 好 
板 。 例如， 如 果 要 构建 足球 知识 


























简介 、 统 计数 据 以 及 部 分 个 人 信 ， 
基于 模式 的 规则 或 POS 标签 、NER 和 关系 提取 法 来 提取 。 
基于 机 器 学 习 的 提取 : 这 也 是 一 种 方法 ， 
专门 针对 自己 的 知识 库 需 求 来 构建 一 个 解析 器 。 某 些 知识 库 将 会 需要 挖掘 








j 一 种 模板 填 
的 用 例 ， 并 试 着 从 i 




















充 机 制 。 
玄 特 定 的 非 结构 化 文本 中 挖掘 出 特定 的 模 




















它 的 思路 是 要 为 所 预期 的 结果 去 











， 需 要 获取 所 


有 球员 的 信息 ， 其 











昌 等 。 所 有 的 这 些 信息 都 可 以 被 先 定义 好 ， 然 后 


会 涉及 他 们 的 
用 









































种 更 深度 











如 可 以 
些 不 能 


的 基于 NLP 的 方法 ， 
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Ds 


并 且 在 比赛 中 赢 了 人 类 对 手 。QA 系统 可 被 分 解 成 若干 个 构成 组 件 ， 其 中 包括 用 于 
F 生成 知识 库 的 信息 检索 和 信和 ， 
对 其 进行 各 种 不 同 的 分 门 别 类 就 是 它 面 临 的 一 大 问 
甚至 在 这 之 后 


识 库 的 语 
一 旦 对 系统 提出 了 一 个 问题 ， 
另 一 方面 是 它 要 对 知识 库 进 行 有 效 地 搜索 并 能 检索 出 最 确 


须 通过 了 目 《〈 例 如 信息 摘要 和 解析 ) 以 自然 的 方式 得 出 答案 。 


2.7 


问答 (Question answering， 简 称 QA) 系统 是 一 种 基 习 
的 智能 系统 , 这 方面 最 主要 的 一 个 例子 就 是 IBM Watson， 





用 预 训练 的 NER 来 提取 的 实体 ， 因 


已 











会 想 要 


下 , 我 们 可 外 
种 更 密集 使 


已 





























密 





NLP 技术 的 方法 ， 
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因为 这 上 





要 














n 














记 器 ， 属 ] 
问答 系统 


如 





























其 他 的 一 些 应 月 














彰 识 别 ， 以 及 用 了 





























5.2.8 ”对 话 系 统 





对 话 
它 会 自动 执行 语 
该 系统 可 以 将 该 
再 转换 成 目标 语言 的 i 





Sn 


日 








E 度 的 机 器 学 习 应 用 。 


系统 一 直 被 当 作 是 一 种 梦幻 般 的 应 
识别 ， 将 其 转换 成 文本 。 然 后 ， 该 文本 会 被 传递 给 某 利 

















个 基 了 


发 的 是 








自身 的 知识 库 来 解决 相 





此 有 必要 构建 一 个 自 定义 的 NER。 在 这 种 情况 
去 开发 一 个 专门 针对 符 构 建 知识 库 的 关系 提取 算法 。 这 会 是 一 











六 NLP 的 解析 器 或 标 


日 关 问 题 

















因为 它 参 加 了 








岂 提 取 。 






































语音 的 文本 翻译 成 





标语 言 。 接 下 来 ， 会 用 某 种 文本 转 语音 系统 将 























语 首 。 


这 就 是 最 为 理 























利 














用 任何 语言 与 计算 机 进行 通信 ， 同 时 
应 用 就 等 于 破除 了 世界 上 所 有 现存 的 语言 障碍 。 




















j， 当 该 系统 收 到 某 利 


E 想 化 的 NLP 应 月 














切 的 文档 。 




















BE 视 节 


目 Jeopardy, 
F 查询 知 














题 。 


TY 
必 








既定 源 语 言 的 语音 时 ， 
机 器 翻译 系统 ， 











四 
结果 




















2 











计算 机 也 将 





用 相同 的 语言 来 进 
































因为 只 要 有 了 它 ， 驴 
行 回 复 。 这 样 一 来 ， 这 





可 以 

















其 中 ，Apple Siri 和 Google Voice 是 对 话 系统 中 商业 应 用 的 典型 例子 ， 它 们 的 智能 程度 
都 足以 了 解 我 们 的 信息 需求 ， 并 且 都 能 试 着 用 一 组 动作 和 信息 来 解决 这 些 需 求 ， 作 出 与 人 
类 相似 的 反应 。 
5.2.9 ”词义 消 歧 

词义 消 歧 (“Word sense disambiguation， 简 称 WSD) 也 是 一 个 人 们 研究 多 年 但 仍 未 得 


到 


























里 解 这 个 概念 有 一 个 简单 的 方法 : 即 刘 
含义 是 不 一 样 的 。 例 如 下 列 例句 





The ice-cream ls really cold 


解决 的 困难 挑战 ,同时 它 也 是 问答 系统 、 信 息 摘 要 和 搜索 等 应 月 





是 当 遇 到 不 同日 














昌 所 面临 的 主要 难点 之 一 。 


























的 上 下 文 语 境 时 ， 有 








许多 单词 的 具体 





























Ph 都 有 “cold” 这 个 单词 。 
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e That was cold blooded! 


但 这 两 个 “cold” 的 含义 并 不 相同 ， 这 种 区 别 的 概念 对 于 计算 机 来 说 确实 是 很 难 理解 
的 。 词 性 标注 和 NER 这 些 NLP 预 处 理 选 项 也 只 能 解决 其 中 的 部 分 问题 。 


5.2.10 “主题 建 模 


在 大 规模 非 结 构 化 文本 内 容 的 处 理 条 件 下 ， 主 题 建 模 算 是 一 个 非常 了 不 起 的 应 用 了 。 
它 的 主要 任务 是 识别 出 语料库 中 新 出 现 的 主题 ， 然 后 根据 这 些 主题 将 其 文档 分 类 存放 到 语 
料 库 中 。 下 一 章 中 会 对 这 个 问题 进行 一 些 简单 的 讨论 。 

主题 建 模 应 用 使 用 了 相同 的 NLP 预 处 理 ， 例 如 句子 分 制 、 标 识 化 处 理 和 词 干 提取 等 。 
该 算法 的 优点 是 有 了 一 种 无 人 监管 的 文档 分 类 法 ;。 男 外 ， 主 题 生成 的 过 程 并 没有 明显 涉及 
其 他 东西 。 我 们 鼓励 读者 更 进一步 了 解 主题 建 模 ， 推 荐 你 去 阅读 一 下 与 潜在 狄 氏 分 配 〈latent 
dirichlet allocation， 简 称 LDA) 和 潜在 语义 索引 (atent semantics indexing， 简 称 LSI) 
相关 的 详细 信息 。 


5.2.11 语言 检测 































































































































































































对 于 一 段 给 定 的 文本 来 说 ， 对 其 进行 语言 检测 其 实 也 是 一 个 问题 。 并 且 ， 语 言 检测 的 
点 用 对 于 其 他 一 些 NLP 应 用 《〈 如 搜索 、 机 器 翻译 、 语 音 等 ) 也 非常 重要 。 其 主要 的 想法 是 
要 从 文本 中 学 习 到 相关 语言 的 特性 。 在 这 个 特性 工程 中 ， 会 用 到 各 种 与 机 器 学 习 以 及 NLP 
相关 的 技术 。 


5.2.12” 光 符 识别 


光 符 识别 (Optical character recognition， 简 称 OCR ) 是 一 种 NLP 与 计算 机 视觉 技术 
相 结合 的 应 用 , 它 会 对 给 定 的 手写 文档 / 非 数 字 文 档 进 行文 本 识别 , 并 将 其 提取 为 数字 格式 。 
这 项 应 用 在 机 器 学 习 领域 中 也 已 经 被 广泛 研究 了 许多 年 .Google Book 算是 其 中 一 个 比较 大 
型 的 OCR 项 目 ， 它 们 使 用 OCR 技术 将 非 数 字 图 书 转换 到 了 一 个 集中 式 的 图 书馆 中 。 




















































































































5.3 小 结 








总 而 言 之 , 我 们 周围 存在 许多 NLP 应 用 ， 它 们 充斥 着 我 们 的 日 党 交互 。NLP 是 有 一 定 
难度 和 复杂 度 的 ， 其 中 有 些 问 题 至 今 为 止 也 没 得 到 解决 ， 或 者 没有 完美 的 解决 方案 。 所 以 
每 一 个 探寻 NLP 问题 的 人 都 在 试 着 搜索 这 方面 的 文献 。 现 在 正 是 成 为 一 名 NLP 研究 者 的 
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大 好 时 机 。 因 为 在 大 数据 时 代 ，NLP 应 用 将 非常 受 欢迎 。 许 多 研究 实验 室 和 组 织 目 前 都 正 
在 致力 于 开发 像 语音 识别 、 搜 索 和 文本 分 类 这 一 类 的 NLP 应 用 。 


相信 到 现在 为 上 ， 读 者 已 经 学 到 了 许多 基础 知识 。 在 接 下 来 的 几 章 中 ， 将 会 深入 探讨 
本 章 所 介绍 的 一 些 应 用 。 也 就 是 说 ， 目 前 已 经 来 到 了 一 个 学 习 节点 上 ， 我 们 已 经 充分 掌握 
了 那些 与 NLP 相关 的 预 处 理工 具 ， 并 且 对 一 些 最 流行 的 NLP 应 用 也 已 经 有 了 一 个 基本 的 
了 解 。 下 面 ， 希 望 能 利用 学 到 的 知识 来 构建 某 种 版 本 的 NLP 应 用 。 

下 一 章 将 会 开始 介绍 一 些 重要 的 NLP 应 用 , 如 文本 分 类 、 文 本 聚 类 和 主题 建 模 。 而 且 ， 
还 会 稍稍 离 下 纯 NLTK 应 用 程序 ， 去 了 解 一 下 NLTK 与 其 他 库 的 配合 使 用 方法 。 
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领域 中 一 些 最 常见 的 工具 和 预 处 理 步骤 进行 了 详细 的 讨论 。 本 章 将 会 利 
之 前 所 学 习 的 大 部 分 知识 来 构建 一 种 复杂 度 最 高 的 NLP 应 用 。 本 章 将 会 给 出 一 个 解决 文 
本 分 类 问题 的 通用 方法 ， 并 带 你 从 零 开始 用 尽 可 能 简短 的 代码 来 构建 文本 分 类 器 。 除 此 之 


























外 ， 还 将 给 出 一 份 适 用 于 文本 分 类 问题 的 分 类 算法 清单 。 





绍 ， 对 于 那些 想 要 了 解 具体 旨 





















































但 本 章 并 不 打算 使 





NLTK 来 做 这 伯 












































里 然 本 章 会 对 部 分 最 常见 的 文本 算法 进行 一 些 讨 论 ， 但 也 都 上 只 能 是 些 晴 虹 点 水 式 的 介 
四 六 和 相关 数学 背景 的 读者 ， 本 章 在 后 面 会 列 出 许多 在 线 资源 
和 相关 书籍 ， 以 供 参考 。 我 们 会 竭尽 所 能 地 帮助 读者 了 解 他 们 所 要 了 解 的 知识 ， 使 读者 能 
够 着 手 使 用 本 章 提 供 的 代码 片段 。 尽 管 ， 文 本 分 类 问题 是 NLP 领域 中 一 个 很 典型 的 用 例 ， 




































































F 事 , 因为 scikit-learn 库 中 包含 了 更 为 广泛 的 分 类 算法 ， 








使 用 该 库 来 执行 文本 控 据 会 更 为 有 效 。 


在 阅读 完 本 章 之 后 ， 希 望 读者 能 掌握 以 下 内 容 。 
。 学 会 所 有 的 文本 分 类 算法 并 
。 学 会 如 何 使 用 点 对 点 的 管道 来 构建 文本 分 类 器 ,并 用 scikit-learn 和 NLTK 来 实现 它 。 
下 面 来 看 一 下 scikit-learn 库 在 机 器 学 习 应 用 上 的 功能 列表 ， 如 图 6-1 所 示 。 








事实 上， 下面 这 个 























里 解 它们 。 
































功能 列表 可 以 被 当成 一 个 流程 图 。 这 样 就 会 有 一 个 明确 的 方向 ， 如 














了 解 哪 种 方法 对 应 的 是 哪个 问题 、 分 类 器 之 间 的 迁移 要 依赖 多 大 规模 的 标记 样本 等 。 对 于 
从 这 张 流程 图 入 手 是 一 个 不 错 的 开始 , 它 在 大 多 数 情况 下 都 是 适用 的 。 








构建 实用 程序 来 说 ， 











本 章 大 多 数 时 候 关 兴 
这 里 只 探讨 文本 (为 了 降低 维度 ) 




















的 是 文本 数据 ， 














尽管 scikit-learn 库 也 可 以 处 理 其 他 类 型 的 数据 ， 但 在 

















的 文本 分 类 、 文 本 聚 类 以 及 主题 检测 问题 ， 并 构建 一 

















些 炫 酷 的 NLP 应 用 。 当 然 ， 本 章 不 会 对 机 器 学 习 、 分 类 和 聚 类 的 概念 进行 详细 说 明 ， 因 为 
对 于 这 些 内 容 ， 大 家 可 以 在 Web 上 找到 充足 的 可 用 资料 。 我 们 会 在 谈 到 相关 语料库 时 给 出 
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这 些 概念 的 更 多 细节 ， 不 过 在 此 之 前 ， 
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还 是 得 先 来 做 个 复习 。 














scikit-learn 


库 的 算法 功能 表 


降 维 问题 








机 器 学 习 





机 器 学 习 技 术 可 以 被 分 成 两 大 类 型 : 监督 式 学 习 和 无 监督 式 学 习 。 
监督 式 学 习 : 该 技术 基于 若干 预先 标记 的 历史 样本 , 它 用 来 预测 未 知 测试 样本 的 算 














法 ， 主 要 有 以 下 两 类 。 











。 分 类 算法 : 该 算法 主要 用 于 预测 测试 样本 是 否 属于 茶 些 类 型 中 的 一 个 。 如 果 算 
法 中 只 有 两 个 类 ， 这 就 是 一 个 二 元 分 类 问题 ; 否则 就 是 一 个 多 元 分 类 问题 。 
。 回归 算法 : 该 算法 主要 用 于 预测 菜 种 连续 性 的 变量 ， 例 如 房价 和 股票 指数 等 。 


无 监督 式 学 习 : 当 没 有 任何 标签 数据 却 仍 需要 预测 类 标签 时 ， 就 会 用 到 这 种 名 为 无 
监督 式 学 习 的 技术 。 如 果 需 要 基于 相关 项 之 间 的 相似 性 来 对 它们 进行 分 组 , 这 就 是 

















个 降 维 问题 。 


























在 解决 聚 类 问题 。 而 如 果 是 需要 在 较 低 维度 上 表示 高 维 数据 的 话 , 那 就 更 多 的 是 一 























半 监 督 式 学 习 : 它 在 分 类 上 应 该 属于 监督 式 学 习 任务 和 技术 ,但 同时 也 会 使 用 未 标记 的 
训练 数据 。 从 名 称 上 就 可 以 看 出 ,这 更 像 是 一 种 介 于 监督 式 学 习 和 无 监督 式 学 习 之 间 的 
技术 ， 基 于 少量 标记 数据 和 大 量 未 标记 数据 来 构建 具有 预测 能 力 的 机 器 学 习 模型 。 





增强 式 学 习 : 这 是 一 种 利用 奖 罚 机 4 
务 方式 。 




















判 来 实现 的 机 器 学 习 形 式 ， 它 没有 指定 的 完成 任 
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如 果 已 经 理解 了 这 些 不 同 的 机 器 学 习 算 法 ， 就 可 以 来 猜 猜 看 下 面 这 些 都 属于 哪 种 机 器 


学 习 问题 。 
。 下 个 月 的 天 气 预 报 。 
。 从 数 百 万 笔 交 易 中 检 测 出 欺诈 行为 。 
。 Google 的 优先 收 件 箱 。 
。 亚马逊 的 推荐 机 制 。 
。 Google 新 闻 。 
。 自动 驾驶 汽车 。 


6.2 文本 分 类 


































































































对 于 文本 分 类 ， 最 简单 的 定义 就 是 要 基于 文本 内 容 来 对 其 进行 分 类 。 通 常情 况 下 ， 目 
前 所 有 的 机 器 学 习 方法 和 算法 都 是 根据 数字 /变量 特征 来 编写 的 。 所 以 这 里 最 重要 的 问题 之 
一 ， 就 是 如 何在 语料库 中 用 数字 特征 的 形式 来 表示 文本 。 各 种 技术 文献 提出 了 各 种 不 同 的 
转换 方式 ， 下 面 从 最 简单 、 使 用 最 广泛 的 转换 方式 着 手 。 
为 了 帮助 读者 理解 文本 分 类 的 具体 过 程 ， 来 看 看 垃圾 邮件 这 个 现实 问题 ， 毕 竞 在 这 个 
充斥 着 WhatsApp 和 SMS 的 世界 中 ， 我 们 难免 会 收 到 许多 垃圾 邮件 。 下 面 ， 就 来 想 想 如 何 
营 助 文本 分 类 算法 来 解决 垃圾 邮件 检测 这 个 现实 问题 。 由 于 接 下 来 的 这 个 运行 实例 会 贯穿 
本 章 的 内 容 ， 所 以 需要 读者 先 来 手动 标记 一 下 这 几 则 真实 的 SMS 例文 : 
SMS001 ['spam', 'Had your mobile 11 months or more? U R entitled to 
Update to the latest colour mobiles with camera for Free! Call The Mobile 
Update Co FREE on 08002986030'] 


SMS002 ['ham', "I'm gonna be home soon and i don't want to talk about 
this stuff anymore tonight, k? I've cried enough today."] 

























































































































































































提示 : 
读者 也 可 以 从 下 面 链接 中 下 载 到 一 份 已 完成 标注 的 数据 
， 集 。 当 然 ， 请 确保 你 创建 的 是 一 个 和 上 述 例子 显示 内 容 
相同 的 CSV 文件 , 下 面 代 码 中 'SMSSpamCollectiom' 所 对 
应 的 就 是 这 个 文件 : 
https://archive.ics.uci.edu/ml/datasets/ 
SMS+Spam+Collection, 
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接 下 来 要 做 的 第 一 件 事 是 按照 之 前 几 音 所 学 到 的 数据 } 
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tt 


里 、 标 识 化 处 理 以 及 词 干 提取 等 知 







































































识 来 对 SMS 进行 清理 ， 使 其 内 容 更 简洁 一 些 。 下 面 就 来 写 一 个 基本 的 、 用 于 文本 清理 的 函数 : 





>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 




















import nltk 
from nltk.corpus import stopwords 
from nltk.stem import WordNetLemmatizer 
import csv 
def preprocessing (text): 
text = text .decode ("utf8") 
# tokenize into words 
tokens = [word for sent in nltk.sent 七 okenize (text) for word in 


nltk.word tokenize (sent) ] 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 





# remove stopwords 
stop = stopwords .words('english') 
tokens = [token for token in tokens if token not in stop] 


# remove words less than three letters 

tokens = [word for word in tokens IE len(word) >= 3] 
# lower capitalization 

tokens = [word.lower() for word in tokens] 

# lemmatize 

lmtzr = WordNetLemmatizer () 

tokens = [lmtzr.lemmatize (word) for word in tokens] 
preprocessed text= ' '.join(tokens) 

return preprocessed text 








第 3 章 已 经 讨论 过 了 与 标记 化 处 理 、 词 形 还 原 以 及 停 用 词 相关 的 知识 ,在 上 述 代 码 中 ”， 














我 只 是 对 SMS 进行 了 解析 并 对 其 内 容 做 了 清理 ， 获 得 了 较为 简洁 的 SMS 文本 。 在 接 下 来 的 


代码 中 ， 我 将 会 创建 两 个 列表 ， 分 别 用 以 获取 被 清理 之 后 的 所 有 SMS 内 容 以 及 类 标签 。 用 





















































ML (machine learning) 术语 来 说 就 是 获取 所 有 的 X 和 了 : 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 








smsdata = open('SMSSpamCollection') # check the structure of this file! 
smsdata data = [] 
[] 


csv_reader = csv.reader (smsdata, delimiter='\t') 


sms_ labels 


for line in csv reader: 
# adding the sms_id 
sms_labels .append( line[0]) 
# adding the cleaned text We are calling preprocessing method 











译 者 注 : 此 处 的 原文 是 In the following code， 但 从 文本 实际 布局 来 看 ， 这 里 指 的 应 该 是 这 段 文字 上 面 的 代码 。 疑 为 作者 笔 误 。 
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>>> smsdata .append (preprocessing (line[1])) 


>>> sms .close() 











在 继续 任何 下 一 步 动作 之 前 ， 要 确保 自己 所 用 的 系统 中 已 经 安装 了 scikit-learn 库 。 

















>>> import sklearn 

提示 : 

如 果 这 向 代码 出 了 错 ， 或 者 在 安装 scikit 的 过 程 中 遇 到 了 
一 些 困难 ， 可 以 按照 下 面 链接 中 的 内 容 来 安装 scikit 库 : 
http:/Scikit-learn.org/stable/install.html。 


6.3 取样 操作 



































一 旦 以 列表 的 形式 持 有 了 整个 语料库 , 接 下 来 就 要 对 其 进行 某 种 形式 的 取样 操作 。 通 
常 来 说 ， 对 语料库 的 整体 取样 方式 与 图 6-2 中 的 训练 集 、 开 发 测试 集 和 测试 集 的 取样 方式 
是 类 似 的 ， 整 个 练习 背后 的 思路 是 要 避免 训练 过 度 。 如 果 将 所 有 数据 点 都 反馈 给 该 横 型 ， 
那么 算法 就 会 基于 整个 语料库 来 进行 机 器 学 习 ， 但 这 些 算法 在 真实 测试 中 针对 的 是 不 可 见 
数据 。 在 非常 简单 的 词汇 环境 中 ， 如 果 在 模型 学 习 过 程 中 使 用 的 是 全 体 数 据 ， 那 么 尽管 分 
类 器 在 该 数据 上 能 得 到 很 好 的 执行 ， 但 其 结果 是 不 稳健 的 。 原 因 在 于 一 直 只 在 给 定数 据 上 
执行 出 最 佳 结果 ， 但 这 样 它 是 学 不 会 如 何 处 理 未 知 数据 的 。 











































































































开发 集 
训练 集 开发 测试 集 





6-2 


要 想 解 决 此 类 问题 , 最 好 的 办 法 是 将 整个 语料库 划分 成 两 个 主要 集合 。 在 建 模 练 习 中 ， 
该 要 避 开 开发 集 和 测试 集 ， 只 用 开发 测试 集 来 完成 建 模 操作 。 在 完成 整个 建 模 练习 之 后 ， 
将 其 结果 放 到 之 前 搁置 的 测试 集合 中 来 进行 预测 。 这 样 一 来 ， 如 果 该 模型 在 该 集合 上 表 
现 良 好 ， 就 可 以 确信 它 对 任何 新 的 数据 样本 都 可 以 进行 准确 而 稳健 的 预测 。 










































































所 发 
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取样 本 来 就 是 一 个 非常 复杂 的 操作 流程 ， 机 器 学 习 社 区 一 直 在 对 其 深入 研究 ， 它 本 质 
是 一 个 应 对 许多 数据 编程 和 训练 过 度 问 题 的 补救 措施 。 简 单 起 见 ， 本 章 将 只 进行 基本 取 
样 ， 下 面 对 语 料 库 进行 70:30 的 划分 : 
>>> trainset size = int(round(len(sms data)*0.70)) 


>>> # i chose this threshold for 70:30 train and test split. 
>>> print 'The training set size for this classifier is ' + str(trainset 
































size) + 'Nn' 

>>> x _ train = np.array([''.join(el) for el in sms data[0:trainset sizel]]) 
>>> y train = np.array ([el for el in sms labels[0:trainset sizel]]) 

>>> x _ test = np.array([''.join(el) for el in sms data[trainset 
sizet+l:len(sms data)]]) 

>>> Y_test = np.array([el for el in sms labels[trainset sizet+l:lenl(sms 
labels)]])or el in sms labels[trainset sizet+l:len(sms labels)]]) 

>>> print x train 

>>> print y train 











。 如 果 将 全 体 数据 都 用 作 训练 数据 ， 你 认为 情况 会 怎样 ? 
。 如 果 面 对 的 是 一 个 非常 不 平衡 的 样本 ， 情 况 又 会 怎样 ? 























提示 : 
如 果 想 要 了 解 更 多 可 用 的 取样 技术 ， 请 访问 以 下 链接 : 
http://scikit-learn.org/stable/modules/classes.html#module- 


sklearn.cross_validation. 





下 面 将 视线 转 到 另 一 件 事 上 : 就 是 要 将 整个 文本 转换 成 向 量 形式 。 这 种 形式 被 称 之 为 
词汇 文档 矩阵 〈term-document matrixz)。 如 果 有 必要 为 这 个 给 定 例子 构建 一 个 词汇 文档 矩 
阵 ， 它 看 起 来 应 该 像 下 面 这 样 : 




















TDM | anymore | call | camera | color | cried | enough | entitled | free | gon | had | latest | mobile 





SMS1 10 1 1 1 0 0 1 2 0 1 0 3 





SMS2 |1 0 0 0 1 1 0 0 1 0 0 0 


















































当然 ， 文 本 文档 也 可 以 用 所 谓 的 BOW (bag of word) 来 表示 ， 这 也 是 文本 挖 据 和 其 他 相 
关 应 用 中 最 常见 的 表示 方法 之 一 。 基 本 上 ， 不 必 去 考虑 这 些 单词 在 相关 语 境 下 的 表示 方式 。 


如 果 想 要 用 Python 来 生成 一 个 类 似 词汇 文档 和 矩阵， 就 需要 用 到 scikit 中 的 向 量化 器 


(vectorizer ): 










































































Fey 
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>>>from sklearn.feature extraction.text import CountVectorizer 
>>>sms_exp=[ ] 

>>>for line in sms list: 

>>> sms_exp .append (preprocessing (line[1])) 

>>>vectorizer = CountVectorizer (min df=1) 

>>>X _ exp = vectorizer.fit transform(sms exp) 


>>>print "||".joinl(vectorizer.get feature names ()) 
>>>print X exp.toarray () 

array([[ 0, 1 1 1 O70 1 20; 

Li Qhr 3 T0707 .0 3, 0 :0.2 

0; 0] LO L007 0 L707 .07 1 

QE; 07. .0 07 Try L017 Lo 0s 

1, 1, ]]) 











计数 向 量 开 了 个 好 头 ， 但 它 在 使 用 过 程 中 会 遇 到 一 个 问题 : 即 较 长 文档 所 获得 的 平均 
计数 值 会 高 于 较 短 的 文档 ， 即 使 在 讨论 主题 相同 的 时 也 是 如 此 。 
小 技巧 : 
-» 如 果 想 要 避免 这 些 漆 在 的 误差 ， 只 要 用 文档 中 每 个 单词 
ea 出 现 的 次 数 除 以 该 文档 中 的 单词 总 数 就 行 了 。 这 个 新 
的 特征 值 叫 做 tf (term frequencies )。 



































在 之 上 还 有 男 一 个 更 细致 的 改进 , 那 就 是 对 语料库 中 许多 文档 中 出 现 的 词汇 进行 降格 
加 权 。 通 过 这 种 方式 ， 就 可 以 得 到 减少 那些 只 在 该 语料库 的 某 一 小 部 分 中 出 现 的 信息 。 

这 种 降格 加 权 被 称 为 tf-idf (term frequency-inverse document frequency )。 幸 运 的 是 ， 
scikit 库 也 提供 了 相应 的 实现 方式 ， 具 体 如 下 : 


































































































>>>from sklearn.feature extraction.text import TfidfVectorizer 
>>>vectorizer = TfidfVectorizer (min df=2, ngram range=(1, 2), stop_ 
words='english', strip accents='unicode', norm='12') 

>>>X train = vectorizer.fit transform(x train) 

>>>X _ test = vectorizer.transform(x test) 





现在 得 到 了 一 个 矩阵 格式 的 文本 ， 它 与 任何 机 器 学 习作 业 中 得 到 的 结果 是 一 样 的 。 现 
在 ,X train 和 X_test 可 以 被 用 于 所 有 机 器 学 习 算 法 中 的 分 类 处 理 了 。 所 以 接 下 来 就 要 看 看 
在 文本 分 类 这 个 语 境 中 ， 有 哪些 最 常用 的 机 器 学 习 算法 。 


6.3.1 ”朴素 贝 叶 斯 法 


下 面 就 来 构建 第 一 个 文本 分 类 器 吧 。 首 先 来 看 朴素 贝 叶 斯 分 类 器 。 朴 素 贝 叶 斯 分 类 器 
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依赖 于 贝 叶 斯 算法 ， 它 本 质 上 是 一 个 根据 给 定 特征 /属性 ， 基 于 某 种 条 件 概率 为 样本 赋予 基 
个 类 别 标签 的 模型 。 在 这 里 ， 将 用 频率 / 伯 努 利 数 来 预 估 先 验 概 率 和 后 验 概率 。 
jj we 先 验 概率 x 似 然 函数 
G2 证 据 因子 
朴素 算法 往往 会 假设 其 中 所 有 的 特征 都 是 相互 独立 的 ， 这 样 对 于 文本 环境 来 说 看 起 来 
会 直观 一 些 。 但 令 人 惊讶 的 是 ， 朴 素 贝 叶 斯 算法 在 大 多 数 实际 用 例 中 的 表现 也 相当 良好 。 


朴素 贝 叶 斯 (NB) 法 的 另 一 个 伟大 之 处 在 于 它 非 常 简单 ， 实 现 起 来 很 容易 ， 评 分 也 很 
简单 。 只 需要 将 各 频率 值 存储 起 来 ， 并 计算 出 概率 。 无 论 在 训练 时 还 是 测试 (评分 ) 时， 
它 的 速度 都 很 快 。 基 于 以 上 原因 ， 大 多 数 的 文本 分 类 问题 都 会 用 它 来 做 基准 
下 面 就 来 写 一 下 这 个 分 类 器 的 实现 代码 : 
>>>from sklearn.naive bayes import MultinomialNB 
>>>clf = MultinomialNB() .fit(X train, y train) 
>>>y_nb predicted = clf.predict (xX test) 
>>>print y nb predicted 
>>>print ' \n confusion matrix \n ' 
>>>cm = confusion matrix(y test, y pred) 
>>>print cm 
>>>print '\n Here is the classification report:' 
>>>print classification reportl(y test, y nb predicted) 
confusion matrix [[1205 5] 
[26 156]] 
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真 阳性 假 阴 性 


假 阳性 真 阴性 





图 6-3 


该 方法 将 测试 集中 的 所 有 1 392 个 样本 读 取 到 了 混合 矩阵 中 , 其 中 有 1 205 个 真 阳性 判 
例 和 156 个 真 阴 性 判例 。 同 时 也 预测 到 了 5 个 假 阴 性 判例 和 26 个 假 阳 性 判例 。 其 分 类 如 图 
6-3 所 示 。 现 在 ， 对 于 这 样 一 个 典型 的 二 元 分 类 器 ， 有 不 同 的 测量 指标 。 


下 面 ， 就 来 给 出 其 中 几 个 最 常见 的 分 类 测量 指标 的 定义 : 















































tp+tn 


Accuracy= 
tp+tnt+fp+fn 
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Precision= 
女 + 帮 
t 
Recall= ? 
tp+fn 
-2. Doe :recall 
precision+recall 
现在 来 看 一 下 分 类 报告 : 
Precision recall fl-score support 
ham 0.97 1.00 0.98 1210 
spam 1.00 0.77 0.87 182 
avg / total 0.97 0.97 0.97 1392 
有 了 上 述 定义 ;现在 结果 一 目 了 然 。 因 此 事实 上 ， 上 述 所 有 的 测量 指标 看 起 来 都 挺 
































不 错 的 ， 这 意味 着 分 类 器 执行 得 准确 而 稳健 。 在 这 里 ， 我 会 强烈 建议 你 以 更 多 的 选项 来 
查看 该 模块 的 测量 指标 ， 用 来 分 析 该 分 类 器 所 得 到 的 结果 。 这 之 中 最 重要 、 且 最 平衡 的 
指标 是 fl 指标 (这 是 R 关于 精确 率 和 反馈 率 的 调和 平均 指标 )。 该 指标 之 所 以 被 广泛 使 
j， 是 因为 它 给 出 了 一 个 具有 更 高 覆盖 面 的 、 优 质 的 分 类 算法 。 另 外 ， 准 确 度 也 直观 地 
告诉 了 我 们 真 样本 在 所 有 样品 中 占 了 多 少 。 精 确 率 与 反馈 率 也 都 有 其 各 自 的 含义 ， 精 确 
率 所 讨论 的 是 该 分 类 器 能 得 到 多 少 真 阳性 判例 以 及 它们 的 覆盖 面 , 而 反馈 率 则 可 以 让 我 
们 详细 了 解 自己 能 从 这 个 关于 真 阳性 和 假 阴 性 的 判例 池 中 得 到 多 大 的 准确 性 。 
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提示 : 
如 果 想 了 解 scikit 库 中 各 种 类 的 更 多 信息 ,请 访问 以 下 链接 : 
http://scikit-learn.org/stable/modules/classes. 


html#module-sklearn.metrics. 























下 面 来 看 男 一 个 更 重要 的 过 程 ， 读 者 要 根据 自己 理解 的 模型 真正 深入 地 查看 这 个 模型 ， 
通过 查看 实际 特征 来 分 辨 阳性 和 阴性 的 判例 类 。 在 这 里 ， 只 写 了 一 段 非常 小 的 代码 来 生成 
前 n 个 特征 并 打印 出 它们 。 具 体 如 下 : 






























































>>>feature names = vectorizer.get feature names () 

>>>coefs = clf.coef 

>>>intercept = clf.intercept 

>>>coefs with fns = sorted(zip(clf.coef [0], feature names)) 
>>>n = 10 

>>>top = zip(coefs with fns[:n], coefs with fns[:-(n + 1):-1]) 
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>>>for (coef 1, fn 1), (coef 2, fn 2) in top: 
>>> print('\t%.4f\t%-1l5s\t\t%.4f\t%-15s' % (coef 1, fn 1, coef 2， 
fn 2)) 
-9.1602 10 den -6.0396 free 
-9.1602 15 -6.3487 txt 
-9.1602 lhr -6.5067 text 
-9.1602 lst ur -6.5393 claim 
-9.1602 2go -6.5681 reply 
-9.1602 2marrow -6.5808 mobile 
-9.1602 2morrow -6.5858 stop 
-9.1602 2mrw -6.6124 ur 
-9.1602 2nd innings -6.6245 prize 
-9.1602 2nd ur -6.7856 WwW 
上 述 代 码 只 是 从 向 量化 器 中 读 取 了 所 有 的 特征 名 称 , 并 获取 了 与 给 定 特征 相关 的 系数 ， 














然后 将 大 
可 。 如 果 仔 旨 
































乓 下 舍 


些 非 六 
的 词汇 ， 许 多 垃圾 信息 
其 他 词汇 也 同样 


























提示 : 














中 前 10 个 特征 打印 出 来 。 如 果 想 要 
观察 这 些 特征 ， 就 
参数 相关 的 建议 ， 如 说 关于 预 处 理 过 程 、 
4 建议 。 举 个 例子 ， 查 看 垃圾 过 滤器 的 前 
常 明显 的 数字 。 对 于 阳性 判 
里 都 有 与 免费 
值得 关注 的 。 


会 得 到 很 多 关于 
单元 / 








们 


二 




















打印 更 多 的 特征 ,只 需要 修改 代码 中 的 n 值 即 


类 《〈 即 垃圾 信息 ) 来 说 ， 
优惠 与 交易 相关 的 内 容 。 





二 元 语法 、 














玄 模 型 的 信息 ， 以 及 更 多 与 特征 选择 和 其 


























“free” 是 晶 ，. 


当然 ，prize、www、claim 和 


更 多 细节 请 参考 http://scikitlearn.org/stable/ 


modulesmmaive_bayes.html 。 


6.3.2 ”决策 树 








决策 树 是 最 古 

















尝试 构建 一 个 相应 的 逻辑 树 。 使 用 决策 树 的 算 





名 和 使 用 最 广泛 的 算法 之 一 : 


来 构造 一 些 二 又 树 结构 ， 并 构造 出 一 
下 面 就 通过 编写 代码 来 获取 一 个 CART 分 类 





CART 算法 会 利用 特性 
中 产生 大 量 的 信息 。 























CART。 














>>> from sklearn import tree 


法 有 很 多 种 类 























老 的 预测 建 代 技术 < 一， 对 于 往 定 的 特征 和 目标 。 基 于 该 技术 的 务 法 


词 干 提取 、 标 记 化 处 理 等 方面 
儿 个 特征 ， 可 以 看 到 2morrow、2nd innings 和 一 
一 个 非常 明显 被 突 
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Ll 
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As 


















































类 ， 这 里 主要 介绍 的 是 其 中 最 于 
个 闵 值 ， 用 于 从 每 个 节点 
: 


>>> clf = tree.DecisionTreeClassifier() .fit(X train.toarray(), y_ train) 


>>> y_tree predicted = 


异步 社 


clf.predict(X test.toarray()) 


区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





80 第 6 章 文本 分 类 


>>> print y tree predicted 


>>> print ' \n Here is the classification report:' 


>>> print classification reportl(y test, y tree predicted) 








这 里 唯一 的 区 别 在 于 训练 数据 集 的 输入 格式 。 需 要 将 之 前 的 稀 下 和 矩阵 格式 修改 成 


NumpPy 数组 ， 因 为 scikit 库 树 模块 只 接受 一 个 NumPy 数组 。 


通常 情况 下 ， 上 只 有 在 特征 数量 非常 少时 ， 树 结构 才 是 一 个 不 错 的 选择 。 因 此 ， 尽 管 乍 
看 之 下 我 们 在 这 里 得 到 了 不 错 的 结果 , 但 实际 上 人 们 很 少 会 在 文本 分 类 问题 上 使 用 树 结构 。 




















































































































但 从 另 一 方面 来 说 ， 树 结构 也 确实 有 一 些 积极 面 。 它 仍然 是 一 个 最 直观 的 算法 ， 简 单 易 懂 ， 
易于 实现 。 基 于 树 结 构 来 实现 的 分 类 算法 也 很 多 ， 如 ID3、C4.5 和 C5 等 。scikit-learn 库 所 
采用 的 是 CART 算法 的 优化 版 本 。 


6.3.3 ”随机 榜 度 下 降 法 


随机 梯度 下 降 (Stochastic gradient descent， 简 称 SGD ) 法 是 一 种 既 简 单 又 非常 有 效 






































的 、 适 用 于 线性 模型 的 方 沪 


















































。 尤 其 在 目标 样本 数量 (和 特征 数量 〉 非常 庞大 时 ， 其 作用 会 





























特别 突出 。 如 果 参 照 之 前 的 功能 列表 图 , 我 们 会 发 现 SGD 是 许多 文本 分 类 问题 的 一 站 式 解 
决 方案 。 另 外 ， 由 于 它 也 能 照顾 到 规范 化 问题 并 可 以 提供 不 同 的 损失 函数 ， 所 以 对 于 线性 
模型 的 实验 工作 来 说 它 也 是 个 很 好 的 选择 。 





不 同 的 〈 坡 面 ) 损失 函数 
性 模型 。 例 如 当 loss = log 








SGD 算法 有 时 候 也 被 称 为 最 硕 (Maximum entropy， 简 称 MaxEnt) 算法 ， 它 会 用 









































(loss function〉 和 惩罚 机 制 来 适 配 针对 分 类 问题 与 回归 问题 的 线 
时 ， 它 适 配 的 是 一 个 对 数 回归 模型 ， 而 当 loss = hinge 时 ， 它 适 


























配 的 则 是 一 个 线性 的 支持 向 量 机 (SVM)。 
下 面 来 看 一 个 具体 的 SGD 算法 用 例 : 


>>>from sklearn.linear model import SGDClassifier 
































>>>from sklearn.metrics import confusion matrix 

>>>clf = SGDClassifier(alpha=.0001, n iter=50) .fit(X train, y train) 
>>>y Pred = clf.predict(X test) 

>>>print '\n Here is the classification report:' 


>>>print classification reportl(y test, y pred) 


>>>print ' \n confusion matrix \n ' 


>>>cm = confusion matrix(y test, y pred) 


>>>print cm 





其 分 类 结果 报告 如 下 : 


precision recall fl1l-score support 
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6.3. 


个 模型 中 ， 我 们 会 用 一 


结果 。 
作为 优化 问题 ，L2 二 元 类 所 旬 
wm 
类 似 地 ， 由 1 


6.3. 


进 的 





ham 0.99 1.00 
spam 0.96 0.91 
avg / total 0.98 0.98 
下 面 是 其 最 翔实 的 特征 列表 : 
-1.0002 sir 

-0.5239 bed 

-0.4763 said 

-0.4763 happy 

-0.4763 might 

-0.4287 added 

-0.4287 list 

-0.4287 morning 

-0.4287 always 

-0.4287 and 

-0.4287 plz 

-0.3810 people 

-0.3810 actually 

-0.3810 urgnt 

4 逻辑 回归 


逻辑 回归 (logistic regression ) 是 
被 称 为 对 元 逻辑 (logit regression )、 




















5 支持 问 量 机 





一 种 针对 分 
最 大 粹 (MaxEnt) 分 类 
个 对 元 函数 来 进行 建 模 ， 
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元 类 所 规范 的 逻辑 回归 则 用 以 下 函数 来 解决 


类 问题 的 线性 模型 


以 概率 的 方式 来 描述 


6.3 


ringtoneking 
filthy 
service 
story 
txt 

new 
ringtone 
reply 
message 
call 
chat 
text 
real 
Video 
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类 法 或 对 数 线性 

















0 —W w+ Cog(exp(-» (XI w+ cjj+ 1) 














“he + Clog (exp( p(X wto))+]) 


其 优化 问题 








。 它 在 某 些 文献 中 也 
项 试验 的 可 能 


在 这 








惩 昼 的 逻辑 回归 可 以 用 以 下 成 本 函数 来 进行 最 小 化 : 











支持 向 量 机 (Support vector machine， 简 称 SVM) 是 目前 在 机 器 学 习 领 


算法 。 
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SVM 属于 非 概率 分 类 器 。SVM 会 在 无 限 维 空间 中 构造 出 一 组 超 平面 ， 它 可 被 应 用 在 
分 类 、 回 归 或 其 他 任务 中 。 直 观 来 说 ， 可 以 通过 一 个 超 平面 来 实现 良好 的 分 类 划 界 ， 这 个 
超 平面 应 该 距离 最 接近 训练 数据 点 的 那些 类 最 远 〈 这 个 距离 被 称 为 功能 边界 )， 因 为 在 一 般 
情况 下 ， 这 个 边界 越 大 ， 分 类 器 的 规模 就 越 小 。 

下 面 就 用 scikit 库 来 构建 一 个 最 高 级 的 监督 式 学 习 算法 : 





>>>from sklearn.svm import LinearSVC 


>>>svm classifier 


>>>y_svm predicted = 


svm classifier.predict(X test) 


>>>print '\n Here is the classification report:' 


LinearSVvC() .fit(X train, y train) 


>>>print classification reportl(y test, y svm predicted) 


>>>cm 
>>>print cm 



































confusion matrix(y test, y pred) 
































































































































其 分 类 结果 报告 与 之 前 相同 : 
precision recall fl-score support 
ham 0.99 1.00 0.99 1210 
spam 0.97 0.90 0.93 182 
avg / total 0.98 0.98 0.98 1392 
confusion matrix [[1204 6] [ 17 165]] 
下 面 是 其 最 翔实 的 特征 列表 : 
-0.9657 road 2.3724 txt 
-0.7493 mail 2.0720 claim 
-0.6701 morning 2.0451 service 
-0.6691 home 2.0008 uk 
-0.6191 executive 1.7909 150p 
-0.5984 said 1.7374 WwW 
-0.5978 lol 1.6997 mobile 
-0.5876 kate 1.6736 50 
-0.5754 got 1.5882 ringtone 
-0.5642 darlin 1.5629 Video 
-0.5613 fullonsms 1.4816 tone 
-0.5613 fullonsms com 1.4237 prize 
这 些 结果 绝对 是 目前 为 止 所 试 过 的 所 有 监督 算法 中 最 好 的 。 介 绍 完 这 个 算法 之 后 ， 对 
项 术 式 分 类 吕 的 介绍 也 就 到 下 结束 了 。 目前 有 数 以 百 万 计 的 图 忆 在 介绍 各 种 不 同 的 机 加 学 
习 算 法 ， 即 使 是 针对 个 别 特定 算法 ， 可 供 选 择 的 书 也 有 很 多 。 但 强烈 建议 读者 务必 要 在 对 
上 述 算法 有 了 一 个 深入 了 解 之 后 ， 然 后 再 在 实际 应 用 中 使 用 它们 。 
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6.4 随机 森林 算 ; 





随机 森林 是 一 种 以 不 同 决策 树 组 合 为 基础 来 进行 评估 的 合成 型 分 类 器 。 事 实 上 ， 它 比较 适 
合用 于 在 各 种 数据 集 的 子 样 本 上 构建 多 决策 树 型 的 分 类 器 。 另 外 , 该 森林 中 的 每 个 树 结 构 都 建立 
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在 一 个 随机 的 最 佳 特征 子 集 上 。 最 后 , 局 月 





























这 些 树 结构 的 动作 也 找 出 了 所 有 随机 特征 子 集中 的 最 
































佳 子 集 。 总 而 言 之 ， 随 机 森林 是 当前 众多 分 类 算法 中 表现 最 佳 的 算法 之 




















下 面 来 看 一 个 具体 的 随机 森林 算法 








j 例 : 





>>> from sklearn.ensemble import RandomForestClassifier 
>>> RF clf = RandomForestClassifier(n estimators=10) 
>>> predicted = RF clf.predict(X test) 

>>> print '\n Here is the classification report:' 


>>> print classification report(y test, predicted) 


>>> cm = confusion matrix(y test, y pred) 


>>> print cm 


提示 : 


| ” ”对 于 仍然 希望 用 NLTK 库 来 解决 文本 分 类 问题 的 读者 ， 
推荐 你 阅读 下 面 链接 中 的 内 容 : 
http:/www.nltk.org/howto/classify.html. 


6.5 文本 聚 类 





与 文本 相关 的 另 一 个 问题 族 系 是 无 监督 式 分 类 问题 。 关 于 这 类 问题 ， 最 常见 的 一 种 问题 
述 是 “我 手 里 有 数 以 百 万 计 的 《〈 非 结构 化 数据 ) 文档， 是 否 能 找到 一 种 方式 将 它们 分 组 ， 以 便 赋 




























































































予 其 有 意义 的 类 别 ? ”到 目前 为 上 上 ， 只 要 掌握 了 被 标注 的 数据 样本 ， 就 可 以 构建 一 个 相应 的 监督 


















































式 算 法 ， 这 些 之 前 已 经 讨论 过 了 。 在 这 里 














文本 聚 类 法 〈 有 时 也 叫 聚 类 法 ) 是 目前 最 为 常见 的 无 监督 式 分 组 方式 之 一 。 使 
法 的 算法 有 很 多 种 选择 。 其 中 ， 我 本 人 最 常用 的 是 k 均值 法 (k-means) 或 层次 聚 类 法 





























， 需 要 使 用 无 监督 的 方式 来 对 这 些 文本 文档 进行 分 组 。 


用 聚 类 




















(hierarchical clustering)。 下 面 ， 就 分 别 来 看 看 它们 是 如 何 与 语料库 搭配 使 用 的 。 


K 均值 法 





该 方法 非常 直观 ， 从 其 名 称 就 可 以 看 出 它 需 要 试 着 找 出 k 组 围绕 着 若干 数据 点 的 平均 值 。 
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因此 ， 该 算法 首先 要 随机 拾取 一 些 数据 点 来 充当 所 有 数据 点 的 中 心 。 接 下 来 ， 该 算法 会 将 所 有 

数据 点 各 自分 配给 离 其 最 近 的 那个 中 心 。 在 这 过 程 中 ， 每 完成 一 次 迭代 ， 其 中 心 就 要 重新 计算 

一 次 ， 然 后 继续 迭代 ， 直 到 达到 中 心 不 再 变化 的 状态 〔 即 达到 算法 饱和 )。 
该 算法 还 有 一 种 变 体 ， 这 种 变 体 可 以 用 迷你 块 (mini batches) 的 方式 来 减少 计算 时 间 ， 

同时 还 会 试图 优化 相同 的 目标 函数 。 










































































7 















































提示 : 
这 里 说 的 迷你 块 (mini batches ) 指 的 是 从 输入 数据 中 
SN 
实 很 大 ， 和 希望 减少 训练 时 间 时 被 纳入 考虑 。 

















下 面 来 看 看 k 均值 法 的 其 体 用 例 : 











>>> from sklearn.cluster import KMeans, MiniBatchKMeans 

>>> true k=5 

>>> km = KMeans (n clusters=true k, init='k-meanst++', max iter=100, n init=1) 
>>> kmini = MiniBatchKMeans (n clusters=true k, init='k-means++', n init=1, 
init size=1000, batch size=1000, verbose=opts .verbose) 

>>> # we are using the same test,train data in TFIDF form as we did in text 
classification 

>>> km model=km.fit(X train) 

>>> kmini model=kmini.fit(X train) 

>>> print "For K-mean clustering " 

>>> clustering = collections.defaultdict (list) 

>>> for idx, label in enumerate (km model .labels ): 

>>> clustering[label] .append (idx) 

>>> print "For K-mean Mini batch clustering " 

>>> clustering = collections.defaultdict (list) 

>>> for idx, label in enumerate (kmini model.labels ): 


>>> clustering[label] .append (idx) 











在 上 面 的 代码 中 ， 导 入 了 scikit-learn 库 的 kmeans 和 minibatchkmeans， 并 使 用 了 一 直 在 运 
行 用 例 所 采用 的 相同 训练 数据 。 男 外 还 用 最 后 三 行 代码 打印 出 了 一 个 针对 各 个 样本 的 聚 类 。 


6.6 文本 中 的 主题 建 模 



































在 文本 语料库 的 语 境 中 ， 男 一 个 焦点 问题 就 是 要 找 出 给 定 文档 的 主题 。 主 题 建 模 这 个 
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概念 可 以 用 许多 不 同 的 方式 来 解决 。 常 用 来 对 文本 文档 进行 主题 建 模 的 方法 





6.6 文本 





























十 王 右 











Ee wp 











的 主题 建 模 85 


LDA 


(Latent Dirichlet allocation， 即 隐 式 狄 利 客 雷 分 布 ) 和 LSI (Latent semantic indexing， 即 


潜在 语义 索引 〉 这 两 种 。 











在 大 多 数 行业 中 ， 通 常 都 会 有 大 量 的 无 标签 文本 文档 。 可 以 在 无 标签 语料库 中 获取 到 
该 语料库 的 初始 状况 ， 主 题 模型 是 一 个 很 棒 的 选项 ， 因 为 它 不 仅 能 给 出 相关 的 主题 ， 
对 整个 语料库 进行 分 门 别 类 ， 并 将 其 主题 数量 传递 给 算法 。。 

























































































C 











还 能 


在 这 里 ,会 用 一 个 叫做 “gensim” 的 Python 库 来 实现 这 些 算法 。 所 以 先 将 注意 转 到 如 何在 相 


同 的 SMS 数据 集 上 实现 LDA 和 LSI 的 问题 上 来 。 从 目前 来 看 , 问题 的 唯一 变化 就 是 要 在 该 SMS 



































数据 中 对 不 同 的 主题 进行 建 模 ， 同 时 希望 了 解 这 些 文件 各 自 






































属于 的 主题 。 在 这 方面 ，Wikipedia 


的 整个 转 储 数据 就 是 一 个 比较 合适 和 现实 的 用 例 ， 可 以 在 上 面 找到 各 种 不 同 的 、 已 经 经 过 讨论 的 





























安装 gensim 


























安装 gensim 最 简单 的 一 种 方法 就 是 使 用 包 管理 器 : 


>>> 








easy install -U gensim 


当然 ， 也 可 这 样 安 闭 : 


>>> pip install gensim 





安装 完成 之 后 ， 就 可 以 执行 以 下 命令 了 : 








>>> import gensim 

， 提示: 

如 果 这 过 程 中 出 现 了 任何 错误 ， 请 参考 以 下 链接 内 容 : 
https://radimrehurek.com/gensim/install.html. 

下 面 ， 来 看 一 段 代码 : 
>>> from gensim import corpora, models, similarities 
>>> from itertools import chain 
>>> import nltk 
>>> from nltk.corpus import stopwords 
>>> from operator import itemgetter 
>>> import re 
>>> documents = [document for document in sms datal 
>>> stoplist = stopwords.words('english') 
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主题 ， 还 有 来 自 客户 的 数 十 亿 条 评论 /投诉 ， 可 以 从 中 获得 人 们 对 于 相关 主题 的 讨论 状况 。 
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>>> texts = [ [word for word in document.1Lowezr () .split() if word not in stoplist] 
\ for document in documents] 











如 你 所 见 ， 我 们 从 SMS 数据 中 读 取 了 文档 ， 同 时 还 移 除 其 中 的 停 用 词 。 虽 然 之 前 章 古 
中 的 方法 也 可 以 做 到 这 件 事 ， 但 这 里 ， 要 用 特定 的 库 来 做 它 。 
































提示 : 
、 ”gensim 库 中 包含 了 所 有 典型 的 NLP 功能， 并 提供 了 一 
些 很 棒 的 方法 来 创建 各 种 不 同 的 语料库 格式 ,如 TFIDF、 
libsvm、market matrix 等 。 同 时 还 提供 了 这 些 格 式 之 间 
的 转换 方法 。 





在 接 下 来 的 这 段 代 码 中 ， 需 要 将 文档 列表 转换 为 BOW 模型 ， 然 后 再 将 该 模型 转换 为 
一 个 典型 的 TF-IDF 语料库 : 


>>>dictionary = corpora.Dictionary (texts) 

>>>corpus = [dictionary.doc2bow (text) for text in 七 exts] 
>>>tfidf = models .TfidfModel (corpus) 

>>>corpus_tfidf = tfidf[corpus] 











在 有 了 所 需 格式 的 语料库 之 后 ， 就 可 以 用 以 下 两 种 方法 来 给 出 主题 的 数量 ， 该 模型 会 
试 着 用 语料库 字 的 所 有 文档 构建 出 一 个 LDA /LSI 模型 
































>>>si = models.LsiModel (corpus tfidf, id2word=dictionary, num topics=100) 
>>>#1si .print topics (20) 

>>>n topics = 5 

>>>lda = models.LdaModel (corpus tfidf, id2word=dictionary, num topics=n 
topics) 








一 旦 完成 了 这 些 建 模 工 作 ， 接 下 来 就 要 去 理解 这 些 不 同 的 主题 了 ， 了 解 各 种 不 同 的 词 
汇 各 自 代 表 的 是 什么 主题 。 下 面 ， 打 印 出 一 份 与 前 儿 大 词汇 相关 的 主题 : 


>>> for i in range(0, n topics): 














>>> temp = lda.show topic(i, 10) 

>>> terms = [] 

>>> for term in temp: 

>>> terms .append (term[1]) 

>>> print "Top 10 terms for topic#"+ str(i)+": "+",".join(terms) 


Top 10 terms for topic #0: week, coming, get, great, call, good, day, txt, like, wish 
Top 10 terms for topic #1: call, ..., later, sorry, '11, lor, home, min, free, meeting 
Top 10 terms for topic #2: ..., n't, time, got, come, want, get, wat, need, anything 
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Top 10 terms for topic #3: get, tomorrow, way, call, pls, 're, send, pick, ..., text 
Top 10 terms for topic #4: ..., good, going, day, know, love, call, yup, get, make 





如 果 你 仔细 查看 一 下 这 些 输 出 信息 ， 就 会 看 到 其 中 有 5 个 不 同 的 主题 ， 它 们 有 着 明显 
不 同 的 含义 。 想 像 一 下 ， 如 果 是 在 Wikipedia 或 者 其 他 Web 页 面 的 大 型 语料库 上 执行 相同 
的 练习 ， 你 就 会 知道 这 些 语料库 表达 了 哪些 有 意义 的 主题 了 。 


6. 7 参考 资料 
































。 http://scikit-learn.org/ 


。 https://radimrehurek.com/gensim/ 


。 https://en.wikipedia.org/wiki/Document classification 


6. 8 小 结 


























本 章 归根 结 底 是 在 介绍 文本 挖掘 技术 的 世界 。 本 章 希 望 能 为 你 提供 一 份 基本 介绍 ， 帮 助 


























你 了 解 一 些 最 常见 的 、 用 于 解决 文本 分 类 / 聚 类 问题 的 算法 。 我 们 知道 这 些 概念 将 怎样 帮助 你 








构建 出 真正 伟大 的 NLP 应 用 《〈 如 垃圾 过 滤器 、 以 域 为 中 心 的 新 闻 订 阅 、 网 页 分 类 等 )。 尽 管 















































本 章 的 代码 示例 中 没有 用 NLTK 库 来 处 理 模块 分 类 ,但 用 NLIK 库 执行 了 所 有 的 预 处 理 步 又 。 
强烈 建议 读者 使 用 优 于 NLTK 的 scikit-learn 库 来 处 理 所 有 的 分 类 问题 。 本 章 还 带 你 初步 涉 入 
了 机 器 学 习 领 域 ， 以 了 解 它 可 以 解决 的 问题 类 型 。 讨 论 了 机 器 学 习 技 术 在 文本 环境 中 的 一 些 





特定 问题 。 除 此 之 外 , 还 讨论 在 文本 的 分 类 、 聚 类 以 及 主题 建 模 方面 最 常见 的 一 些 分 类 算法 ， 


Se 


































































































并 给 出 了 充足 的 实现 细节 ， 以 帮助 读者 完成 相关 的 工作 。 当 然 即 便 如 此 ， 我 也 仍然 认为 读者 
需要 针对 这 里 的 每 个 算法 进行 大 量 的 阅读 ， 了 解 它 们 的 理论 ， 以 获得 更 深入 的 理解 。 










































































除 上 述 内 容 外 ， 还 向 读者 介绍 了 整个 处 理 流程 ， 读 者 需要 根据 这 个 流程 来 处 理 所 有 文 
















































































本 挖掘 问题 相关 的 情况 。 这 里 涵盖 了 机 器 学 习 在 实践 方面 的 大 部 分 内 容 ， 包 括 取样 、 预 处 
里 、 建 模 以 及 模型 评估 等 。 








上 




















下 一 章 内 容 不 会 直接 涉及 NLTK/NLP, 但 会 介绍 一 个 很 受 数 据 科 学 家 与 NLP 爱好 者 欢 



































迎 的 工具 。 在 大 多 数 NLP 问题 中 ， 都 需要 处 理 一 些 非 结 构 化 文本 数据 ，Web 就 是 其 中 内 容 












































最 为 丰富 、 体 寺 








用 这 些 技术 来 构建 一 令 人 惊叹 的 NLP 应 用 。 








最 大 的 数据 源 之 一 。 下 一 章 将 会 介绍 如 何 从 Web 中 收集 数据 ， 并 有 效 地 利 
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A 
Web[ 品 





Web 无 疑 是 当前 最 大 的 非 结 构 化 文本 的 存储 库 ， 如 果 知 道 如 何 对 其 内 容 进行 仆 取 ， 





就 可 以 获得 所 有 想 
者 来 说 是 一 项 很 值 
主要 内 容 。 




















本 章 将 会 用 一 个 叫做 Scrapy 的 t 
细 介 绍 该 库 所 有 可 用 于 配置 和 
。 另 外 ， 
操作 相关 的 概念 有 一 个 基本 上 








个 与 之 相关 的 用 例 
等 与 Web 信息 











要 的 数据 。 正 因为 
得 学 习 的 技术 ， 而 




















如 此 ，Web 疏 取 (web crawling) 对 于 NLTK 的 爱好 
如 何 从 Web 中 获取 相关 的 数据 正 是 本 章 所 要 介绍 的 






















































































的 各 种 不 同 设置 
1 于 Scrapy 库 的 使 用 需要 我 们 对 Xpath、 


写 一 个 Web 疏 虫 。 本 章 会 为 你 详 
些 最 肖 见 的 蜂 蛛 策略 以 及 多 
宫 息 仆 取 ， 信 息 检索 
了解 。 所 以 本 章 也 会 对 这 些 主题 进行 一 定 的 探 


奇 的 Python 库 来 编 


信息 。 还 会 编 














与 





















































讨 ， 以 确保 读者 在 
































7.1 Web 瓜 


Google 无 疑 是 当前 最 大 的 网 页 朴 虫 之 一 ， 它 疏 取 的 对 象 


如 何 用 Scrapy 库 编 
Scrapy 库 的 所 有 主要 功能 。 


kk 体 实现 相关 应 用 2 
在 阅读 完 本 章 之 后 ， 和 希望 读者 能 对 Web 爬虫 有 个 更 好 上 


前 ， 能 了 解 其 在 实践 方面 的 相关 知识 。 总 而 言 之 ， 
的 了 解 ， 并 能 掌握 以 下 内 容 。 

















D 
口 


EE 


与 

















虫 


遇 于 自己 的 爬虫 。 


三 } 

















EE 网 (WWW )。 





整个 万 多 














丰 








Google 必须 对 Web 中 现存 的 每 一 个 页 面 进行 过 历 ， 并 检索 / 扑 取 其 所 裔 历 到 的 全 部 


内 容 。 
Web 爬虫 
程序 。 而 且 

















，Web 

















是 一 种 系统 性 逐 页 浏览 Web 中 的 页 面 , 并 对 
公 虫 还 可 以 从 已 被 息 取 过 的 内 容 

















2 


内 容 进 行 检索 或 仆 取 的 计算 机 
解析 出 接 下 来 要 访问 的 URL 集 。 因 此 ， 



































如 果 这 些 程序 进程 可 以 面 对 整 个 Web 无 限期 地 运行 下 去 , 是 可 以 仆 取 到 所 有 网 页 的 。 另外 ， 
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Web 仆 虫 也 被 叫 作 蜂 蛛 、 机 器 人 和 检索 器 ， 它 们 只 是 同一 事物 的 不 同名 称 ”。 

在 编写 第 一 个 爬虫 程序 之 前 ， 有 那么 几 个 要 点 需要 先 思考 一 下 。 以 目前 的 技术 来 
说 ， 在 用 Web 仆 虫 对 网 页 进行 遍历 之 前 ， 应 该 要 先决 定 需要 选取 什么 类 型 的 内 容 ， 要 
忽略 的 又 是 什么 内 容 。 例 如 对 于 搜索 引擎 这 样 的 应 用 来 说 ， 通 常 应 该 要 忽略 掉 所 有 的 












































图 像 、js 文件 、css 文件 及 其 

































































他 非 HTML 文件 ， 将 注意 力 集中 在 那些 可 被 索引 并 且 可 被 























搜索 的 HTML 内 容 上 。 在 某 
中 特定 的 部 分 。 另 外 ， 如 果 想 要 执行 递归 式 爬 取 操 作 的 话 ， 还 需要 提取 其 中 的 URL。 





些 信息 提取 引擎 中 ， 还 需要 选取 特定 的 HTML 标签 或 网 页 























这 就 进入 了 怜 取 策 略 这 一 话题 中 来 。 在 这 一 话题 中 ， 需 要 决定 递归 策略 是 深度 优先 还 
是 广度 优先 。 可 能 会 想 要 追踪 下 一 网 页 上 的 所 有 URL， 那 么 只 要 采用 深度 优先 策略 来 








下 去 即 可 。 




















获取 这 些 URL 即 可 。 也 可 能 会 想 前 往 下 一 网 页 中 的 所 有 URL,， 这 样 的 话 只 需 一 路 递归 











当然 ， 还 需要 确保 自己 不 会 陷入 上 自 循 环 状态 ， 因 为 基本 上 在 大 多 数 情 况 下 ， 需 要 裔 历 



























































的 是 茶 种 图 结构 。 为 此 ， 需 要 确保 自己 有 一 个 清晰 的 应 对 页 面 重复 访问 的 策略 。 其 中 ， 聚 











焦 爬 取 〈focused crawling) 是 一 种 最 常 被 讨论 的 仆 取 策略 。 在 该 策略 中 ， 要 知道 自己 在 找 












































什么 域 或 主题 ， 以 及 所 要 抓 取 的 域 。 这 其 中 的 一 些 问题 将 会 在 蜘蛛 这 一 节 中 做 更 为 详细 的 


讨论 。 


提示 : 








推荐 读者 看 看 Udacity 上 的 视频 : 
https:/www.youtube.com/watchyv=CDXOcvUNBaA。 


7.2 编写 第 一 个 扑 虫 程序 


























从 最 基本 的 爬虫 程序 开始 ， 这 个 爬虫 将 会 被 用 来 叭 取 某 个 Web 页 面 上 的 全 部 内 容 。 在 
这 里 , 要 用 Scrapy 来 编写 这 个 爬 虫 。Scrapy 库 是 Python 语言 环境 下 爬虫 问题 的 最 佳 解决 方 
案 之 一 。 本 章 将 会 讨论 Scrapy 库 中 各 种 不 同 的 功能 。 因 此 先 要 安装 一 下 Scrapy。 
































可 以 用 以 下 命令 来 安装 。 
请 键入 以 下 命令 : 








$ pip install scrapy 













































































Q@ 译 者 注 : 从 后 文 看 ， 作 者 似乎 很 喜欢 将 蜘蛛 和 爬虫 这 两 个 词 混 着 用 ， 所 以 提前 说 明 一 下 倒 也 是 个 办 法 。 
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用 包 管 理 来 安装 Scrapy 无 疑 是 最 简单 的 方式 。 下面 来 测试 一 下 安 
想 情 况 下 ，Scrapy 现在 应 该 已 经 被 纳入 到 了 sys.path 变量 中 ): 
>>> import scrapy 
y 小 技巧 : 
Q 如 果 在 安装 过 程 中 遇 到 了 任何 错误 ， 请 参考 : 
http://doc.scrapy.org/ en/latestintro/install.html.。 




















装 是 否 一 切 就 绪 。( 理 





[ys 









































现在 ，Scrapy 库 应 该 可 以 工作 了 。 下 面 ， 就 来 看 第 一 个 蜘蛛 应 用 示例 吧 : 
$ scrapy startproject tutorial 
在 执行 完 上 述 命令 之 后 ， 该 示例 就 应 该 会 呈现 出 如 下 目录 结构 : 
tutorial/ 
scrapy.cfg #the project configuration file 
tutorial/ #the project's Python module, you'll later import your 
code from here. 
_init .py 
items.py #the project's items file. 
pipelines .py #the project's pipelines file. 
settings.py # the project's settings file. 
spiders/ #a directory where you'l1l later put your spiders. 
_init .py 











如 你 所 见 ， 该 项 目的 顶层 文件 夹 显示 这 个 示例 的 名 字 是 tutorial。 




















然后 该 目录 中 还 有 一 








个 项 目 配 置 文件 (scrapy.cfg),， 该 文件 用 于 定义 项 目 应 使 用 何 种 设置 文件 ， 并 指定 该 项 目的 
部 团 URL。 除 此 之 外 ，tutorial 项 目 中 还 有 几 个 重要 文件 : setting.py 可 以 用 来 指定 该 项 目 将 

























































































文件 定义 的 是 在 解析 目标 项 时 所 需要 的 数据 以 及 需要 执行 何 种 类 型 的 
spider 文件 夹 中 包含 的 是 我 们 为 若干 特定 URL 所 编写 的 不 同 蜂 蛛 。 




































































使 用 何 种 类 型 的 目标 管道 (item pipeline) “和 蜂 蛛 。 接 下 来 是 item.py 和 pipline.py， 这 两 个 




















预 处 理 操作 。 最 后 ， 

















对 于 本 革 首 个 测试 性 的 蜘蛛 ， 我 们 打算 用 它 将 一 些 新 闻 内 容 转 储 到 某 一 本 地 文件 中 。 

















为 此 需 在 /tutorial /spiders 路 径 下 创建 一 个 名 为 NewsSpiderpy 的 文件 。 
第 一 个 蜘蛛 程序 了 : 
>>>from scrapy.spider import BaseSpider 


>>>class NewsSpider (BaseSpider): 
>>> name = "news" 


















































然后 ， 就 可 以 来 编写 











@ 译 者 注 ; 在 Scrapy 中 ,目标 项 (items) 是 用 来 加 载 被 擒 取 内 容 的 容器 ， 其 结构 上 有 点 像 Python 中 的 字典 类 型 ， 但 额外 提供 

















了 一 些 保护 以 减少 错误 。 
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蜂 蛛 程序 所 在 的 位 置 以 及 其 他 与 
E 确 ， 以 及 在 setting.py 文件 中 所 配置 


售 ] 
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>>> allowed domains = ["nytimes .com"] 
>>> start URLss = [ 

>>> 'http://www.nytimes.com/' 
>>> ] 


>>>def parse(self, response): 








'wb ' ) .write (response .body) 

















>>> filename = response.URLs.split("/")[-2] 
>>> open (filename, 
在 这 个 蜘蛛 程 








序 准备 就 绪 之 后 ， 就 可 以 使 用 以 下 命令 开始 进行 仆 取 了 : 





$ scrapy crawl news 


在 执行 完 上 述 














命令 后 ， 终 端 中 应 该 会 出 现 类 似 这 样 的 日 志 信息 : 





[scrapy] INFO: Scrapy 0.24.5 started (bot: tutorial) 
[scrapy] INFO: Optional features available: ssl, httpll, boto 
[scrapy] INFO: Overridden settings: {'NEWSPIDER MODULE': 'tutorial. spiders', 


'SPIDER MODULES': 


['tutorial .spiders'], 'BOT NAME': 'tutorial'} 


[scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, 
WebService, CoreStats, SpiderState 















































如 果 没 有 看 到 像 上 面 这 样 的 日 志 人 信息， 那么 一 定 在 之 前 做 错 了 某 些 事 。 请 检查 一 下 该 








Scrapy 相关 的 设 
蛛 和 目标 项 是 否 与 实际 情况 一 致 。 





的 蜂 





置 ， 如 说 与 crawl 命令 匹配 的 蜂 蛛 名 称 是 
































只 要 一 切 顺 利 ， 就 会 在 本 地 文件 夹 中 看 到 一 个 名 为 www.nytimes.com 的 文件 ， 其 中 包 
含 了 www.nytimes.com 这 一 页 面 上 的 全 部 内 容 。 


下 面 ， 来 详细 地 看 一 下 这 个 网 蛛 代 码 中 所 用 到 的 一 些 关 系 词 。 





。 name: 这 是 Scrapy 库 为 蜂 ! 














味 程 序 分 本 


























的 标识 符 , 便于 它 查 找 与 该 蜂 蛛 相应 的 spider 














类 。 因 此 ，crawl 命令 的 参数 应 该 始终 与 该 名 称 相 匹 配 。 另 外 ， 还 需要 注意 该 名 称 





是 区 分 大 小 写 的 ， 必 须要 





e start urls: 


起 点 开始 




















这 是 该 蜘蛛 程序 将 要 | 
取 取 ， 通 过 对 其 调用 p 








oO 


TT 

















这 里 , 我 们 可 以 提供 一 份 可 



































。 parse(): 通过 调用 该 方法 可 以 解析 起 点 U 














项 的 特定 属性 来 选取 。 这 样 做 可 以 简单 地 ; 








执行 仆 取 动作 




















角 保 它 的 唯一 性 。 

世 取 的 URL 列表 。 疏 里 通常 会 以 某 个 种 子 URL 为 
se() 方 法 来 解析 并 查找 下 一 个 要 疏 取 的 URL。 当 然 在 
的 起 点 URL 列表 ， 而 不 只 是 一 个 种 子 URL。 
RL 上 的 数据 。 其 元 素 种 类 的 逻辑 将 会 由 目标 
委 HTML 页 面 的 整个 内 容 转换 为 与 许多 可 调 































































































用 的 解析 方法 一 样 复杂 的 、 并 可 以 针对 各 独立 的 目标 项 属性 的 不 同 选择 器 。 


[Ea 








此 ， 这 段 代码 只 是 指定 了 一 个 URL 在 这 里 




















就 是 wwwnytimes.com) 以 充当 把 取 的 起 点 ， 
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然后 仆 取 了 该 页 面 上 的 全 部 内 容 , 通常 来 说 , 爬虫 程序 要 比 这 更 复杂 一 些 , 要 做 的 事 会 更 多 一 些 。 
现在 先 暂且 退 后 一 步 ， 来 了 解 一 下 这 段 代 码 背 后 究竟 发 生 了 哪些 事 。 为 此 ， 先 来 看 一 下 图 7-1。 





























J 
下 载 吉 中 间 件 





站,: 间 件 


响应 


| 











7. 3 ”Scrapy 库 中 的 数据 流 


在 Scrapy 中 ， 数 据 流 是 由 执行 引擎 所 控制 的 ， 其 主要 流程 如 下 所 示 。 











1. 该 执行 进程 会 找到 之 前 所 选择 的 蜂 蛛 程序 并 启动 它 ， 并 打开 start_urls 列表 中 的 第 














一 个 URL。 





2. 接着 ， 某 个 调度 器 会 以 请 求 的 形式 来 调度 这 一 个 URL。 这 更 多 的 是 属于 Scrapy 的 


内 部 操作 。 
3. 然后 ，Scrapy 引擎 会 去 继续 查找 下 一 组 URL 并 对 其 进行 爬 取 。 






































4. 再 接着 ， 调 度 器 会 将 下 一 批 URL 发 送 给 执行 引擎 ， 而 执行 引擎 会 通过 
将 其 转发 给 下 载 器 。 这 些 中 间 件 位 于 存放 不 同 代理 和 用 户 代理 设置 的 地 方 。 
























































下 载 中 间 件 


5. 然后 ， 下 载 占 会 去 下 载 来 自 相关 页 面 的 响应 内 容 ， 并 将 其 传递 给 蜂 蛛 程序 ， 该 峰 蛛 








的 解析 方法 会 从 这 段 响应 内 容 中 选取 特定 的 元 素 。 
6. 接 下 来 ， 蜂 蛛 程 序 会 将 处 理 完 的 目标 项 发 送 给 Scrapy 引擎 。 


























7. Scrapy 引擎 再 将 处 理 完 的 响应 内 容 发 送 给 目标 项 管道 , 在 该 管道 中 还 可 以 再 添加 一 








些 后 弛 卖 处 理 。 
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8. Scrapy 引擎 会 继续 对 每 个 URL 执行 相同 的 过 程 ， 直 到 剩 下 的 请 求全 部 完成 为 止 。 
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T 





7.3.1 Scrapy 库 的 shell 


理解 Scrapy 库 的 最 好 方法 就 是 在 shell 中 使 用 它 ， 亲 自 去 使 用 一 些 由 Scrapy 库 所 提供 




















的 初始 命令 和 工具 。 这 些 命令 允许 用 户 在 练习 和 开发 的 过 程 中 使 用 XPath 表达 式 ， 可 以 将 
其 放 入 自己 的 蜂 蛛 代码 。 








下 面 乡 








小 技巧 : 
想 要 在 Scrapy 库 的 shell 中 进行 作业 的 话 , 建议 你 安装 一 


Q 下 Chrome 浏览 器 的 开发 插件 和 Firebug (Mozilla Firefox 


的 插件 )。 这 类 工具 对 于 从 网 页 特定 部 分 挖 振 相 关 信息 会 
很 有 帮助 。 





来 看 一 个 非常 有 趣 的 用 例 。 在 这 个 用 例 中 ， 任 务 是 要 从 Google 新 闻 























Chttps:Wnews.google.com/) 中 抓 取 出 热门 话题 。 
其 具体 步骤 如 下 所 示 。 
1. 在 喜欢 的 浏览 器 中 打开 https://news.google.com/。 


2. 接 下 来 ， 请 切换 到 转 到 Google 新 闻 的 热门 话题 部 分 。 并 在 第 一 个 热门 话题 上 单 击 
右键 ， 然 后 选择 Inspect Element 菜单 项 ， 其 屏幕 截图 如 图 7-2 所 示 。 

















二 hrtps://news.google.com 


Ml papers 


Apps Ml Imported From Safarl fed Ml project 和 bigdata Ml producEX Wl books MM 247 各 mine acc MW nlp 


Google -区 本 





News India editlon ~ Modem ~ fi S09 cg 
Top Stories Top Stories 
Manchester United F 
六 Open Link in New Tab je Official Apathy, Ministry Seeks 众 
i Open Link in New Window 
Iran Open Link in Incognito Window 
lsrael 
gp Save Link As. 1apathy, differently-abled sportspersons participating in the 
[ 
ndia Copy Link Address mpionships have been put up at unfurnished accommodations with 
Tunisia Copy nps, prompting the Sports Ministry to seeka 
Jammu and Kashmir © Search Google for ‘Manchester United F.C. sathy, Minister jege selon Related 
rp Nt Ipathy towards para-athietes Athietes > 
Kabul 
aren Nod A > d, Land Acquisition Bill not anti-fa 
Chrono Download Manager » |pread, -af Acquisition an Srrmnen 
Donguhu, Km 4 Evernote Web Clipper >» 
Suggested for you | inspect Element were being spread about the new land acquisition bill, Prime 
机 jd jay asserted that the proposed law was in farmers' interest as it will 
commei Look Up in Dictionary Yent, output and incomes in 
World Speech * jstan for perpetuating terror, asks them to 
India Search With Google 
NN Tweet oing Golden Jubilee Celebrations of BSF, Union Home Minister 
Add to iTunes as a Spoken Track Nl protect its borders in such a way that no one would be able to 
sho Hmm ew une wuunuy， 
World Cup 2015: Maxwell claims he can be frontline spinner for Aussies 
Entertainment zor against ... 


图 7-2 
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3. 在 打开 该 菜单 项 的 一 刻 ， 浏 览 器 会 弹 开 一 个 侧 边 窗口 ， 出 现 一 个 视图 。 





4. 接着 ， 请 搜索 并 选取 相关 的 div 标签 。 


“topic”>。 


5. 待 上 述 操作 完成 之 后 , 就 会 了 解 到 实际 上 自 





行 解析 ， 其 屏幕 截图 如 图 7-3 所 示 。 


A htips://news.goo0gle.co.in/7ar=14272199 








Apos MM Impored from Ssfarl WM ed Ml project 





Google 


Modem ~ 


了 


News ~ Imdia wdition ~ 


Top Stories Recont 


Black box found at 众 World cup 2015: Kohl belleves time ripe 
Germanwings Airbus A320 to defoat Australla 

plane crash site in French 

Alps ... 


Weather for Bengaluru, Karnataka 


According to FWghtradar24. which tracks ar 


traffic in roal Sme from all around tho worid, hes 。 Today wod Tw 
on Twitter retweeted 3 post which shows the 外 刘 记 
sateiite prcture of the images of the crashed 

Plane's wreckage 36" 37" 36" 






France- 150 dead in mystery plane crasn 
Alps 


ng. Gormamings Airbus A320 piane 


updates 


Bliss aiop a hill 


图 


Ma blodarn MM proouatx MM books W247 各 


The Wearmer Cnannel - Wieemer Unaergrouna -Accuweamer 


Bengaluru, Karnataka » Change localion 


Greens take up cudpels against Tadadi 











如 在 这 个 例子 中 ， 我 们 感 兴趣 的 是 <div class = 





己 已 经 完成 了 对 相关 网 页 的 特定 部 分 进 









MgSswtt) ysp_MiqGeze: 


op 


36r 


7-3 


现在 ， 事 实 上 是 要 用 自动 化 的 方式 来 完成 上 面 这 些 手 动 的 操作 步骤 。Scrapy 库 使 用 了 


一 种 名 为 XPath 的 XML 路 径 语言 。 而 Xpath 是 可 以 实现 上 面 这 类 功能 的 。 因 





来 看 看 Scrapy 库 是 如 何 实现 同一 个 例子 的 。 

















此 ， 下 面 就 











想 要 使 用 Scrapy 库 ， 需 要 先 在 命令 行 环境 中 输入 以 下 命令 : 





$scrapy shell https://news.google. 











com/ 


在 按 下 回 车 键 的 那 一 刹那 ,Google 新 闻 所 在 网 页 的 响应 内 容 就 会 被 加 载 到 Scrapy 库 的 shell 
中 。 下 面 ， 将 注意 力 转 到 Scrapy 库 中 最 重要 的 方面 上 来 ， 了 解 如 何 查找 网 页 中 特定 的 HIML 元 
素 。 现 在 ， 启 动 并 运行 上 图 中 这 个 从 Google 新 闻 中 获取 相关 话题 的 例子 吧 : 


In [1]: sel.xpath('//div[@class="topic"]') .extract() 














然后 ， 得 到 如 下 输出 : 


Out[1]: 








[<Selector xpath='//div[@class="topic"]' data=u'<div class="topic"><a 


href="/news/sectio'>, 


<Selector xpath='//div[@class="topic"]' data=u'<div class="topic"><a 


href="/news/sectio'>, 


<Selector xpath='//div[@class="topic"]' data=u'<div class="topic"><a 
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href="/news/sectio'>] 


现在 ， 需 要 来 了 解 一 下 在 shell 中 用 过 的 这 些 | 




















继续 更 新 蜂 蛛 程序 ,让 它 来 执行 一 些 更 为 复杂 的 工作 。 
助 下 构建 的 ， 这 说 明 它 们 在 速度 和 解析 精度 方面 会 非常 相似 。 


下 面 来 看 一 些 最 常用 的 选择 器 方法 。 
。 xpath(): 该 方法 会 返回 一 个 选择 器 列表 ， 其 























表达 式 参数 所 选中 的 节点 。 


e。 css(): 该 方法 会 返回 一 个 选择 器 列表 








式 参 数 所 选中 的 节点 。 








。 extract(): 该 方法 会 以 字符 串 的 形式 返回 被 选中 


。 re(): 该 方法 会 返回 一 个 unicode 字符 串 的 列表 , 其 内 容 





所 提取 的 。 









































稍 后 ， 会 提供 给 你 一 份 前 10 大 选择 器 的 清单 ， 
分 工作 了 。 而 对 于 更 复杂 的 选择 器 ， 如 果 你 在 Web | 
用 的 解决 方案 了 。 下 面 ， 试 着 从 网 页 中 提取 它 的 标题 ， 这 对 于 所 有 的 网 页 都 是 很 常见 的 任务 : 























i} 

















Scrapy 和 XPath 提供 的 函数 。 然 后 再 
于 Scrapy 选择 器 是 在 lxml 库 的 辅 
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PP 的 每 个 选择 器 都 代表 了 一 个 由 XPath 























， 其 中 的 每 个 选择 器 都 代表 了 一 个 由 CSS 表达 




















数据 的 内 容 。 




















是 由 给 定 的 正则 表达 式 参数 











这 些 选择 器 足以 覆盖 到 日 常会 涉及 的 大 部 














In [2] :sel.xpath('//title/text()') 
Out [2] : [<Selector xpath='//title/text()' data=u' Google News '>] 




















上 搜索 一 番 ， 就 应 该 可 以 找到 一 个 简单 易 


























现在 ， 在 选取 完 元 素 之 后 ， 就 会 想 继续 执行 更 多 的 提取 处 理 。 下 面 就 来 提取 被 选取 元 


























素 的 内 容 。 这 是 一 个 所 有 选择 器 都 适用 的 通用 方法 : 























In [3] : sel.xpath('//title/text()') .extract() 


Out[3]: [u' Google News'] 








除 此 之 外 ， 查 看 给 定 网 页 中 的 所 有 元 素 也 是 一 个 非常 通用 的 请 求 操作 。 下 面 就 用 这 个 











选择 器 来 实现 它 : 


In [4]: sel.xpath('//ul/1i') 


Out [4] : list of elements (divs and all) 











也 可 以 用 下 面 这 个 选择 器 来 提取 网 页 ， 

















所 有 的 标题 : 


In [5]: sel.xpath('//ul/li/a/text()') .extract() 


Out [5]: [ u'India', 
u'World', 
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u'Business', 
u'Technology', 
u'Entertainment', 
u'More Top Stories'] 











通过 下 面 这 个 选择 器 ， 可 以 提取 网 页 中 所 有 的 超 链 接 : 


In [6]:sel.xpath('//ul/li/a/@href') .extract() 
Out [6] : List of urls 




















下 面 要 选取 的 是 所 有 的 <td> 和 div 元 素 : 


In [7]:sel.xpath('td'') 
In [8] :divs=sel .xpath ("//div") 





























接 下 来 要 选取 的 是 所 有 的 div 元 素 ， 在 这 里 可 以 使 用 循环 : 


In [9]: for d in divs: 
printd.extract() 
























































上 述 代码 会 打印 出 整个 网 页 中 各 个 div 元 素 中 的 全 部 内 容 。 因 此 , 在 无 法 获取 div 的 准 
名 称 的 情况 下 ， 也 可 以 通过 基于 正则 表达 式 的 搜索 功能 来 进行 查看 。 
现在 ， 再 来 选取 所 有 包含 属性 class =“topic” 的 div 元 素 : 


In [10] :sel.xpath('/div[@class="topic"] ') .extract() 
In [11]: sel.xpath("//h1") .extract() # this includes the hl tag 


下 面 来 选取 网 页 中 所 有 的 <p> 元 素 ， 并 获取 这 些 元 素 的 class 属性 信息 : 


In [12 ] for node in sel.xpath("//p"): 

print node.xpath("@class") .extract() 

Out[12] print all the <p> 

In [13]: sel.xpath("//li[contains (@class, 'topic')]") 

Out[13]: 

[<Selector xpath="//li[contains(@class, 'topic')]" data=u'<11 class="navitem 
nv-FRONTPAGE selecte'>, 

<Selector xpath="//li[contains(@class, 'topic')]" data=u'<1i 
class="navitem nv-FRONTPAGE selecte'>] 


接 下 来 ,要 来 编写 一 些 用 于 从 css 文件 中 获取 数据 的 选择 器 。 如 果 只 想 从 css 文件 中 提 
取 相 关 的 标题 ， 所 需 做 的 操作 通常 与 之 前 相同 ， 无 非 就 是 要 做 些 语法 上 的 修改 : 


In [14] :sel.css('title::text') .extract() 
Out[14]: [u'Google News'] 


et 





























如 
































aul 


















































通过 下 面 的 命令 可 以 将 网 页 中 使 用 的 所 有 图 片 名 称 列 出 来 : 
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In[15]: sel.xpath('//a[lcontains (@href, "image")]/img/@src') .extract() 
Out [15] : Will list all the images if the web developer has put the images 
in /img/src 

















最 后 ， 来 看 一 下 基于 正则 表达 式 的 选择 器 ; 


In [16 ]selL.xpPath('//title').re('(N\w+) ') 
Out [16]: [u'title', u'Google', u'News', u'title'] 























在 某 些 情况 下 ， 移 除 掉 命 名 空间 可 以 帮助 我 们 获得 正确 的 模式 。 选 择 器 中 通常 都 
会 内 置 remove_namespacesO 函 数 ， 该 函数 会 确保 相关 文档 被 完整 地 扫描 到 ， 同 时 也 会 
移 除 其 中 所 有 的 命名 空间 。 当 然 在 调用 这 个 函数 之 前 ， 应 该 要 先 确认 一 下 其 中 的 一 
些 命名 空间 是 否 属于 模式 的 一 部 分 。 下 面 来 看 看 remove_namespacesO 了 函数 是 如 何 被 调 
用 的 : 


In [17] sel.remove namespaces() 
sel .xpath ("//link") 




























































































































































































现在 ， 我 们 对 选择 器 应 该 有 了 更 多 的 了 解 。 下 面 继续 来 修改 之 前 构建 的 那个 新 闻 网 蛛 


>>> from scrapy.spider import BaseSpider 








>>> class NewsSpider (BaseSpider): 


>>> name = "news" 

>>> allowed domains = ["nytimes.com"] 

>>> start URLss = [ 

>>> 'http://www.nytimes .com/' 

>>> ] 

>>> def parse(self, response): 

>>> sel = Selector (response) 

>>> sites = sel.xpath('//ul/1i') 

>>> for site in sites: 

>>> title = site.xpath('a/text()') .extract() 
>>> link = site.xpath('a/@href') .extract() 
>>> desc = site.xpath('text()') .extract () 
>>> print title, link, desc 








如 你 所 见 ， 这 里 主要 修改 了 parse() 方 法 ， 这 是 蜂 蛛 程序 的 核心 方法 之 一 。 现 在 ， 这 个 
蜂 蛛 程序 就 对 整个 网 页 进行 了 息 取 操作 , 而且 也 对 其 中 的 标题 、 说 明和 URL 进行 了 更 结构 
化 的 解析 。 


现在 ， 可 以 用 Scrapy 库 中 的 所 有 功能 来 编写 一 个 更 健壮 的 仆 虫 程序 了 。 









































荆 
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7.3.2 目标 项 


到 目前 为 止 ， 
实 还 有 

















功能 如 下 : 


>>> fromscrapy.item import Item, Field 


个 更 好 的 选择 : 
的 好 处 是 可 以 在 自己 的 解析 方法 内 使 月 
XML、JSON 或 CSV 等 。 所 以 ， 下 面 回 到 之 前 的 爬虫 程序 中 为 大 


时 





我 们 都 只 





就 是 








是 将 爬 取 所 得 的 内 容 打印 在 标准 
在 每 次 编写 爬虫 程序 的 时 候 为 其 定义 一 
日 这 些 目标 项 ， 




















瑟 





>>> class NewsItem(scrapy .Item) : 


接 下 来 ， 为 该 类 添加 如 下 三 个 不 同 的 字段 ， 


>>> from scrapy.item import Item, Field 
>>> class NewsItem (Item) : 


>>> title = Field() 
>>> link = Field() 
>>> desc = Field() 




















转 储 到 某 个 文件 中 











方法 提供 


网 






































个 布尔 参数 ， 








咒 党 壮 沿 汉 
站 








如 你 所 见 ， 通过 





Tp 











输出 

















上 或 转 储 到 文件 
个 items.py。 这 样 做 
并 以 任意 的 数据 格式 来 输出 ， 如 














# define the fields for your item here like: 
# name = scrapy .Field() 
pass 


添加 一 个 




















第 7 章 Web 色 











目标 项 类 ， 














项 对 象 。 
























































可 以 用 它 来 指定 





























在 这 里 ， 需 要 


重点 注 





名 是 parse()， 如 果 要 使 


程序 的 爬 取 功能 
和 参数 : 








恨 据 它 来 查找 相关 的 解 

















是 否 使 用 该 规 















































因为 它 不 会 








定 后 续 要 爬 取 何 利 
































FE 意 的 是 Rule() 方 法 本 身 不 是 用 来 解析 的 。 因 为 其 默认 
] 它 ， 实 际 上 就 是 要 覆盖 它 的 默认 实现 ， 并 且 可 以 以 此 来 停 


。 接 下 来 ， 将 注意 力 转 向 下 面 的 代码 ， 来 具体 到 
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接 。 在 回调 


field() 添 加 了 tile、link 和 desc 这 三 个 字段 。 在 放置 完 字 段 后 ， 上 述 
师 蛛 程序 的 解析 方法 就 可 以 被 修改 为 parse_news_item() 了 ， 
它 现在 使 用 的 是 目标 ] 
接 下 来 要 定义 的 是 Rule0 方 法 ， 这 是 一 种 用 于 指 
了 SgmlLinkExtractor0， 这 是 一 种 
页 中 提取 出 哪些 URL。 除 此 之 外 ，Rule0 方 法 
回 一 个 指针 ， 蜘 蛛 程序 会 


将 被 解析 的 字段 


FURL 的 方式 。Rule0 
于 定义 URL 模式 的 方式 ， 它 决定 了 能 从 被 朴 
还 提供 了 一 个 回调 方法 ， 该 方法 通常 会 
方法 ， 在 这 里 就 是 parse_news_item()。 
目标 可 以 有 不 同 的 解析 方式 ， 那么 也 可 以 设置 多 个 规则 和 人 解析 方法 。 男 外 ，Rule0 方 法 
则 去 提取 每 个 响应 后 面 的 链 
函数 为 None 的 情况 下 ， 其 默认 值 为 True， 否 则 默认 为 False。 











回调 的 方法 
上 蜘蛛 
E 解 上 面 所 提 到 的 这 些 方法 


ES 





>>> from 
>>> from 
>>> from 
>>> from 





7.4 ”生成 网 站 地 图 的 蜂 蛛 程序 











scrapy .contrib.spiders import CrawlSpider, Rule 

scrapy .contrib.linkextractors.sgml import SgmlLinkExtractor 
scrapy.selector import Selector 

scrapy.item import NewsItem 


>>> class NewsSpider (CrawlSpider): 


>>> name = 'news' 

>>> allowed domains = ['news.google.com'] 

>>> start urls = ['https://news.google.com'] 

>>> rules = ( 

>>> # Extract links matching cnn.com 

>>> Rule (SgmlLinkExtractor (allow=('cnn.com', ), deny=(http:// 
edition.cnn.com/', ))), 

>>> # Extract links matching 'news .google.com' 

>>> Rule (SgmlLinkExtractor (allow=('news.google.com', )), 
callback='parse news item'), 

>>> ) 

>>> def parse news item(self, response): 

>>> sel = Selector (response) 

>>> item = NewsItem() 

>>> item['title'] = sel.xpath('//title/text()') .extract() 
>>> item[topic] = sel.xpath('/div[@class="topic"]') .extract() 
>>> item['desc'] = sel.xpath('//td//text()') .extract () 

>>> return item 


7.4 生成 网 站 地 图 的 蜘蛛 程序 


如 果 相 关 网 站 提供 了 sitemap.xml， 那 么 使 用 SiteMapSpider 来 对 该 网 站 进行 仆 取 无 疑 
是 一 种 更 好 的 选择 。 


在 给 定 sitemap.xml 的 情况 下 ， 蜂 蛛 程 序 所 解析 的 是 由 网 站 自身 提供 的 URL。 这 无 疑 







































































是 一 种 更 优雅 的 候 取 方式 ， 也 会 是 一 种 更 良好 的 实践 : 


>>> from scrapy.contrib.spiders import SitemapSpider 





>>> class MySpider (SitemapSpider): 


>>> sitemap URLss = ['http://www.example.com/sitemap.xml'] 
>>> sitemap rules = [('/electronics/', 'parse electronics'), 
('/ apparel/', 'parse apparel'),] 

>>> def 'parse electronics' (self, response): 

>>> # you need to create an item for electronics, 

>>> return 

>>> def 'parse apparel' (self, response): 

>>> #you need to create an item for apparel 

>>> return 
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在 上 面 这 段 代 码 中 ， 我 们 为 每 个 产品 目录 都 编写 了 一 个 相应 的 解析 方法 。 如 果 想 建立 











er 












































一 个 价格 汇总 / 比 对 程序 的 话 ， 这 显然 是 个 不 错 的 用 例 。 在 这 里 ， 需 要 针对 不 同 产 品 的 不 同 








属性 进行 解析 ， 例 如 对 于 





























外 子 类 产品 ， 可 能 要 收集 的 是 它 的 技术 规格 、 附 件 以 及 价格 信息 ; 


Tn 














对 于 服装 类 产品 ， 


试 一 下 ,在 shell 中 通过 相关 的 获取 模式 来 收集 不 同 目标 项 的 大 小 、 颜 色 与 价格 信息 。 如 果 
在 一 个 良好 的 状态 下 写 出 了 第 一 个 符合 工业 标准 的 蜂 蛛 程序 。 





这 样 做 了 ， 就 等 于 




















可 能 就 更 关心 它们 的 大 小 和 颜色 。 建 议 读者 找 一 个 零售 类 网 站 来 亲自 党 









































在 菜 些 情况 下 ， 想 要 怜 取 的 网 站 必须 要 先行 登录 ， 然 后 才能 进入 该 网 站 的 某 些 部 分 。 






































Scrapy 库 目 前 对 此 也 有 了 一 个 解决 方法 。 它 们 实现 了 FormRequest 对 象 ， 该 对 象 将 以 POST 
的 形式 来 呼叫 HTTP 服务 器 并 获得 响应 。 下 面 ， 束 通 过 具体 的 蜂 蛛 程序 代码 来 深入 地 了 解 
一 下 : 

>>> class LoginSpider (BaseSpider): 

>>> name = 'example .com' 

>>> start URLss = ['http://www.example.com/users/login.php'] 

>>> def parse (self, response): 

>>> return [FormRequest.from response (response, 

formdata={'username': 'john', 'password': 'secret'}, callback=self.after 

login)] 

>>> def after login(self, response): 

>>> # check login succeed before going on 

>>> if "authentication failed" in response.body: 

>>> self.log("Login failed", level=log .ERROR) 

>>> return 

对 于 只 需要 输入 























j 户 名 和 密码 而 无 需 任何 验证 码 的 网 站 ， 只 需 在 上 述 代码 中 添加 特定 




















的 详细 登录 信息 即 可 。 这 也 是 解析 方法 的 一 部 分 ， 因 为 大 多 数 情 况 下 都 想 要 在 首页 中 进行 












































登录 的 。 在 完成 登录 之 后 ， 就 可 以 针对 目标 项 以 及 其 他 细节 信息 来 编写 属于 自己 的 回调 方 





法 after login0 了 。 








7.5 目标 项 管道 





下 面 ， 来 谈 





义 管 道 的 方式 ， 可 以 通过 这 种 方式 来 定义 相关 的 目标 项 后 续 要 执行 怎样 的 处 理 。 这 是 一 种 
有 条 不 率 的 、 优 秀 的 程序 设计 思维 。 

















谈 关 于 














目标 项 的 后 续 处 理 。 在 这 方面 ，Scrapy 库 提供 了 一 种 为 目标 项 定 



















































































如 果 想 要 对 之 前 所 收集 的 目标 项 进行 处 理 ， 如 移 除 干扰 词 、 执 行 大 小 写 转换 以 及 需要 




































































对 目标 中 某 个 值 进 行 其 他 处 理 ， 例 如 想 根 据 出 生日 期 (DOB ) 来 计算 年 龄 ， 或 者 根据 原价 
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格 来 计算 折扣 ， 这 些 都 需要 专门 构建 属于 自己 的 目标 项 管道 。 而 且 到 最 后 ， 可 能 还 需要 通 


过 这 些 管 道 将 目标 项 各 自转 储 到 茶 个 文件 中 。 



























































下 面 就 来 看 看 这 种 方式 的 具体 实现 步 又 。 
首先， 需要 在 setting.py 中 定义 一 个 目标 项 管道 : 


ITEM PIPELINES = { 
'myproject.pipeline.CleanPipeline': 300, 











'myproject.pipeline.AgePipeline': 500, 
'myproject.pipeline.DuplicatesPipeline: 700, 


'myproject.pipeline.JsonWriterPipeline': 800, 





























>>>from scrapy.exceptions import Item 
>>>import datetime 

>>>import datetime 

>>>class AgePipeline (object): 


>>> def process item(self, item, spider): 
>>> if item['DOB']: 
>>> item['Age'] = (datetime.datetime. 














strptime (item['DOB'], '%d-%m-%y') .date() -datetime .datetime. 


strptime('currentdate, '%d-%m-%y') .date()) .days/365 


>>> return item 




















3. 接着 ， 需 要 根据 出 生日 期 来 推导 出 年 龄 ， 这 里 将 会 用 到 Python 的 日 期 函数 : 














>>>from scrapy import signals 
>>>from scrapy.exceptions import Item 
>>>class DuplicatesPipeline (object) : 





>>> def init (self): 

>>> self.ids seen = set() 

>>> def process item(self, item, spider): 

>>> If item['id'] in self.ids seen: 

>>> raise DropItem("Duplicate item found: %s" % item) 
>>> else: 

>>> self.ids seen.add(item['id']) 

>>> return item 











4. 还 需要 移 除 掉 重 复 的 内 容 。 由 于 Python 的 setO 数 据 结构 可 以 确保 其 项 目 值 的 唯 


































































































所 以 我 们 可 以 用 Scrapy 库 来 创建 一 个 管道 ， 下 面 是 其 实现 代码 DuplicatesPipeline.py: 


>>> from scrapy import signals 
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>>> from scrapy.exceptions import Item 
>>> class DuplicatesPipeline (object): 


>>> def init (self): 

>>> self.ids seen = set() 

>>> def process item(self, item, spider): 

>>> If item['id'] in self.ids seen: 

>>> raise DropItem("Duplicate item found: %s" % item) 
>>> else: 

>>> self.ids seen.add(item['id']) 

>>> return item 



































5. 最 后 ， 要 用 JsonWriterPipeline.py 中 定义 的 管道 将 目标 项 写 入 到 相关 的 JSON 文 























件 ， 











尽 月 


7. 


赖 别人 的 数据 了 。 


>>>import json 
>>>class JsonWriterPipeline (object) : 


>>> def init (self): 

>>> self.file = open('items.txt', 'wb') 
>>> def process item(self, item, spider): 
>>> line = json.dumps (dict(item)) + "\n" 
>>> self.file.write (line) 

>>> return item 


6 参考 资料 























我 们 鼓励 读者 学 习 一 些 简单 的 蜘蛛 程序 实现 ， 然 后 尝试 着 用 它们 来 构建 出 一 些 很 栈 
































程序。 下 面 是 本 人 所 推荐 的 参考 链接 。 


e http://doc.scrapy.org/en/latest/intro/tutorial.html。 








e http://doc.scrapy.org/en/latest/intro/overview.html。 


7 小 结 











在 这 一 半 中 ,我们 学 习 了 另 一 个 非常 优秀 的 Python 程序 库 。 从 现在 起 ， 可 以 不 必 
因为 已 经 学 会 了 如 何 编 写 一 个 非常 复杂 的 爬虫 系统 ， 以 及 如 何 编写 





























专注 于 某 类 信息 的 蜘蛛 程序 。 总 之 在 本 章 ， 我 们 看 到 了 从 主 系统 5 
体 方法 ， 以 及 如 何 为 一 些 最 常见 的 用 例 来 编写 特定 的 蜂 蛛 程序 。 在 此 过 程 中 ， 了 人 解 了 一 些 


































































































FP 抽 象 出 目标 项 逻辑 的 具 


于 依 


个 





在 实现 自 定义 蜂 蛛 程序 时 最 常用 到 的 设置 ， 也 写 了 一 些 可 重用 的 、 复 杂 的 解析 方法 。 除 此 
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之 外 ， 还 对 选择 器 进行 了 非常 深入 的 了 解 ， 知 道 了 如 何 用 手动 的 方式 来 确定 所 需 的 、 特 定 
的 目标 项 属性 , 也 可 以 通过 Firebug 这 样 的 工具 来 进一步 实际 地 了 解 选择 器 。 最 后 一 个 同样 
要 的 建议 是 ， 请 务必 遵守 你 所 疏 取 网 站 的 安全 指南 。 


下 一 章 将 会 向 你 介绍 一 些 基本 的 Python 库 在 自然 语言 处 理 和 机 器 学 习 领域 的 使 用 
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NLIKU DUD Python0UUUUD 











| .> 


NLTK、Scikit 和 genism 这 三 个 库 ， 它 们 在 功能 上 都 非常 抽象 ， 所 要 处 











本 章 将 会 带 你 探索 Python 在 机 器 学 习 和 自然 语言 处 理 方面 的 一 些 主干 库 。 到 目前 为 止 



















































































里 的 也 都 是 非常 具有 针对 性 的 任务 。 大 多 数 统计 型 NLP 都 大 量 地 依赖 于 向 量 空间 模型 ， 而 
向 量 空 间 模型 的 基础 是 线性 代数 的 基本 运算 ， 这 部 分 将 由 NumPy 库 所 覆盖 。 除 此 之 外 ， 
NLP 领域 中 有 许多 任务 (如 POS 或 NER 标记 ) 在 卸 下 伪装 之 后 ， 其 实 都 是 一 些 分 类 器 。 
本 章 将 会 讨论 所 有 这 些 任务 中 会 被 大 量 用 到 的 程序 库 。 

本 章 的 主要 用 意 是 希望 为 读者 提供 一 份 最 基本 的 Python 库 的 快速 预览 。 这 将 有 助 于 读 
者 了 解 更 多 这 些 最 酷 炫 的 程序 库 背 后 的 数据 结构 、 设 计 和 数学 ， 如 之 前 章节 中 所 讨论 的 
NLIK 和 Scikit。 











































































































下 面 是 本 章 将 要 介绍 的 4 个 程序 库 。 在 这 里 ， 会 尽量 维持 一 份 简 介 该 有 的 篇 幅 ， 但 如 
果 你 希望 在 数据 科学 领域 掌握 更 多 基于 Python 的 一 站 式 解决 方案 , 我 个 人 会 强烈 建议 读者 
应 该 去 阅读 更 多 关于 这 些 库 的 详细 信息 。 


。 NumPy《〈 用 于 数值 计算 )。 
。 SciPy (用 于 科学 计算 )。 

。 pandas 《用 于 数据 操纵 )。 
。 matplotlib《 用 于 可 视 化 处 理 )。 































































































— 








8.1 NumPy 




















NumpPy 是 一 种 用 于 处 理 数值 计算 的 Python 库 ， 而 且 其 运算 速度 很 快 。NumPy 库 提供 
了 一 些 高 度 优化 的 数据 结构 〈 如 ndarray)。 另 外 ，NumPy 库 中 也 提供 了 许多 为 数值 计算 专 
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门 设计 和 优化 的 函数 , 用 于 执行 一 些 最 常见 的 数值 运算 。 因 此, 这 个 库 也 是 NLTK、 scikitleam、 
pandas 等 其 他 相关 库 实现 其 一 些 算法 的 基础 之 一 。 本 节 会 简单 地 介绍 一 些 Numpy 库 的 运行 
实例 。 这 样 做 不 仅 有 助 于 读者 了 解 NLTK 与 其 他 相关 库 背后 所 用 的 基本 数据 结构 ， 而 且 还 能 
使 读者 有 能 力 根据 自己 的 需要 自 定义 其 中 的 一 些 功能 。 

下 面 先 来 讨论 ndarray， 看 看 它们 是 如 何 被 用 作 和 矩阵 的 ， 以 及 在 NumPy 中 处 理 条 
算是 何等 简单 、 高 效 。 


8.1.1 多 维 数组 


ndarray 是 一 个 数组 对 象 ， 表 示 的 元 素 类 型 单一 、 且 元 素数 目 固定 的 多 维 数 组 。 
下 面 ， 先 用 一 个 普通 的 Python 列表 来 构建 ndarray 对 象 : 


>>> x=[1,2,5,7,3,11,14,25] 
>>> import numpy as np 











































































































> 
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枉 
全; 









































>>> np arr=np.array (x) 
>>> np arr 








如 你 所 见 ， 上面 显 示 的 是 一 个 线性 的 单 维 数组 但 Numpy 的 真正 强大 之 处 在 于 它 的 二 
维 数 组 。 接 下 来 就 来 看 看 二 维 数组 ， 用 Python 列表 的 列表 来 创建 它 。 
>>> arr=[[1,2], [13,4],[33,78]] 


>>> np 2darr= np.array (arr) 
>>> type (np 2darr) 


























numpy .ndarray 


索引 操作 


ndarray 的 索引 方式 使 其 更 像 是 一 个 Python 容器 。 NumpPy 库 可 以 通过 切片 的 方式 来 提 
供 对 ndarray 对 象 的 不 同 观 察 方式 。 








>>> np 2darr.tolist() 

[[1, 2], [13, 4], [33, 78]] 

>>> np 2darr[:] 

array ([[1, 2], [13, 4], [33, 78]]) 
>>> np 2darr[:2] 

array ([[1, 2], [13, 4]]) 

>>> np 2darr[:1] 

array ([[1, 2]1]1) 

>>> np 2darr[2] 

array ([33, 78]) 
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>>> np_2darr[2] [0] 
>>> 33 

>>> np _ 2darr[:-1] 
array ([[1, 2], [13, 4]]) 


8.1.2 ”基本 运算 


NumpPy 库 还 另外 提供 了 一 组 可 用 于 处 理 各 种 数值 计算 的 操作 。 在 下 面 这 个 例子 中 ， 希 
望 以 0.1 的 步 长 来 获得 一 个 包含 0 到 10 区 间 内 所 有 数字 的 数组 。 对 于 任何 优化 例 程 来 说 ， 
这 都 是 一 个 典型 需求 。 于 是 在 一 些 最 为 常见 的 库 〈 如 Scikit 和 NLIK) 中 ， 会 用 下 面 这 些 
NumpPy 函数 来 处 理 问题 。 
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>>> import numpy as np 
>>> np.arange (0.0, 1.0, 0.1) 
array([ 0. ,， 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1] 














在 这 里 ， 既 可 以 像 上 面 这 样 做 ， 也 可 以 像 下 面 这 样 生 成 一 个 元 素 全 为 1 或 0 的 
数组 : 

>>> np.ones ([2, 4]) 

array([[1., 1., 1., 1.], [1., 1., 1., 1.]]) 


>>> np.zeros([3,4]) 
array ([[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]]) 











哇 哦 ! 
如 果 你 当年 做 过 高 中 数学 , 就 会 知道 在 许多 代数 运算 中 全 都 会 涉及 矩阵 。 你 猜 怎 么 着 ? 
大 部 分 Python 机 器 学 习 库 也 一 样 会 用 到 它们 ! 

>>>np .linspace(0, 2, 10) 

array ([ 0.， 0.22222222， 0.44444444 ， 0.66666667， 


0.88888889， 1.11111111, 1.33333333, 1.55555556, 1.77777778, 
2, ]) 


linspaceO 函 数 返回 的 是 一 组 间隔 相等 的 数字 样本 ， 它 的 计算 范围 位 于 设 定 的 起 始 值 和 
结束 值 之 间 。 在 上 面 这 个 给 定 示例 中 ， 想 要 获取 的 是 0 到 2 区 间 内 的 10 个 样本 。 

类 似 地 ， 也 可 以 用 对 数 尺度 来 获取 数组 。 其 调用 函数 如 下 : 

>>> np.logspace (0,1) 


array ([ La 1.04811313, 1.09854114, 1.1513954, 7.90604321, 
8.28642773, 8.68511374, 9.10298178, 9.54095476, 10.， ] ) 
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在 这 里 ， 一 样 可 以 通过 Python 的 help0 函 数 来 获取 相关 参数 和 返回 值 的 更 多 细节 

















>>> help (np .1logspace) 
Help on function logspace in module NumpPy .core.function base: 


logspace(start, stop, num=50, endpoint=True, base=10.0) 
Return numbers spaced evenly on a log scale. 


In linear space, the sequence starts at "base ** start" 
('base' to the power of 'start') and ends with "base ** stop" 
(see 'endpoint' below). 


Parameters 


start : float 























如 你 所 见 ， 除 了 在 调用 时 需 提 供 起 始 值 、 结 束 值 及 想 要 获得 的 样本 数 ， 在 上 面 这 个 用 






































， 还 得 提供 一 个 基数 。 





8.1.3 从 数组 中 提取 数据 


还 可 以 在 ndarray 对 象 上 执行 各 种 数据 操纵 和 过 泪 。 下 面 ， 先 来 创建 一 个 新 的 Ndarray 











对 象 一 一 A。 


来 都 非常 优雅 : 


>>> A = array([[0, 0, 0], [0, 1, 2], [0, 2, 4], [0, 3, 6]]) 


>>> B = np.array([n for n in range n for n in range(4)]) 
>>> B 
array ([0, 1, 2, 3]) 





现在 ， 可 以 对 其 执行 各 类 条 件 操作 了 ， 你 将 会 在 下 面 看 到 这 些 操作 的 示范 ， 它 们 看 起 




















>>>less than 3 = B<3 # we are filtering the items that are less than 3. 
>>>less than 3 

array ([ True, True, True, False], dtype=bool) 

>>>B[less than 3] 

array ([0, 1, 2]) 


还 可 以 将 某 个 值 赋予 所 有 的 这 些 值 ， 如 下 所 示 。 


>>> Bl[less than 3] = 0 
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>>>: B 
array ([0, 0, 


与 其 他 Python 库 的 搭配 运用 


0, 3]) 

















另外 ， 还 有 一 种 用 于 获取 指定 矩阵 对 角 线 上 数字 的 方法 。 下 面 是 矩阵 A 对 角 线 上 的 数字 : 


>>>np .diag (A) 





array ([0, 1, 














4]) 


8.1.4 ”复杂 和 欠 阵 运算 


元 素 相 乘 是 常见 的 一 种 矩阵 运算 ， 该 运算 需要 将 一 个 矩阵 中 的 元 素 与 另 一 个 矩阵 中 的 
元 素 相 乘 。 其 结果 应 该 是 一 个 与 输入 矩阵 形状 相同 的 矩阵 "， 例 如 ; 


>>> A = np.array([[1,2],[3,4]]) 


这 














>>>A*A 
array([[ 1, 








4], [ 9, 16]]) 


提示 
但 是 不 能 执行 下 面 这 样 的 运算 ， 它 会 在 执行 时 抛 出 这 样 的 
错误 信息 : 

2 


ValueError Traceback (most recent call last) 
<ipython-input-53-e2f71f566704> in <module>() 
----> 1 A*B 


ValueError: 参与 运算 的 对 象 在 形状 上 (2,2) (4,) 不 一 致 。 
简单 地 说 ， 就 是 第 一 运算 对 象 的 列 数 必须 要 与 第 二 运算 对 
象 的 行 数 相 匹配 ， 这 样 才能 执行 矩阵 的 乘法 运算 。 








下 面 再 来 看 点 积 














4 运算， 该 运算 可 是 许多 优化 措施 和 代数 运算 的 核心 操作 。 我 一 直 以 来 


























觉得 在 传统 环境 下 这 件 事 做 起 来 不 是 很 有 效率 。 现 在 来 看 看 它 在 NumPy 库 中 是 多 么 容 














>>>np .dot (A, 


， 以 及 在 内 存 方面 是 多 么 高 效 。 


A) 


array ([[ 7, 10], [15, 22]]) 





当然 ， 也 可 以 执行 像 加 、 减 和 转 置 这 样 的 操作 ， 具 体 如 下 : 





是 


@ 译 者 注 : 原文 如 此 ， 












































其 实 和 矩阵 乘法 运算 的 结果 举证 在 形状 上 应 该 是 行 数 等 于 第 一 输入 和 矩阵， 列 数 等 于 第 二 输入 和 矩阵。 在 这 
里 是 两 个 相同 的 矩阵 相 乘 ， 








然 在 形状 上 也 相同 。 
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>>> 有 - 入 


array ([[0, 0], [0, 0]]) 
>>>A+A 

4], [6， 
>>> np.transpose (A) 


[2, 


array ([[2, 8] 1) 


array ([[1, 3], 4]] ) 
>>>> A 
[2， 


array ([[1, 2], 3]] ) 











在 这 里 ， 可 以 用 下 面 这 个 操作 来 替代 上 面 的 转 置 运算 : 


>>> A.T 
array ([[1, 3], 














[2, 4]]) 





还 可 以 先 将 这 些 ndarray 对 象 转换 为 矩阵 ， 再 来 执行 旬 


>>> M 
>>> M 





np.matrix (A) 
matrix([[1, 2], [3, 
>>> np.conjugate (M) 
matrix([[1, 2], [3, 
>>> np.invert (M) 

-3] 了 


4 ]]) 
4]]) 
matrix([[-2, 


[-4, -5]]) 





可 以 用 NumpPy 库 来 执行 各 种 复杂 的 矩阵 运算 ， 而 且 使 月 
F 细 的 信息 。 


现在 ， 回 到 一 些 常 见 的 数学 运算 上 来 ， 比 如 找 日 
































者 自行 查看 有 关 Numpy 的 文档 ， 以 了 解 更 详 


中 



































算 的 具体 应 用 : 
>>> N = np.random.randn (1,10) 
>>> N 
array ([[ 0.59238571, -0.22224549 ， 0.6753678 ， 


-0.37402105 ， 
-0.83847935 ， 
>>> N.mean() 
-0.010232957191371551 
>>> N.std() 
0.47295594072935421 


-0.54067842, 
0.03480181, 


0.11445297， 
]]) 





日 起 来 也 非常 


给 定数 组 中 的 最 小 
家 以 及 标准 差 。 在 下 面 的 代码 中 ， 会 生成 一 组 正 态 分 布 的 随机 数 ， 以 便 
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E 阵 运算 ， 如 下 所 示 。 





简单 ! 这 方面 请 读 





直 、 最 大 值 、 平 均 


j 它 来 示范 这 些 运 






































0.48092087， 


-0.02483442 ， 


、 




















这 只 是 一 个 示例 ， 目 的 是 演示 如 何 通过 NumPy 库 来 执行 简 


的 数值 计算 和 代数 运算 ， 
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找 出 一 组 数字 中 的 平均 值 和 标准 差 。 
重 塑 与 堆 靶 
在 某 些 数值 计算 和 代数 运算 



























































, 可 能 会 需要 在 输入 矩阵 的 基 而 











一 一 




















上 改变 结果 矩阵 的 形状 。 








在 这 方面 ，NumpPy 库 提 供 了 一 些 简 单 有 效 的 方式 来 重 塑 (reshaping) 和 + 














住 登 〈stacking) 外 























阵 ， 以 满足 我 们 的 任何 期 待 


付 。 
>>> A 
array ([[1, 





2], [3, 4]]) 

















如 果 这 里 想 要 





的 








>>>> (r, c) = A.shape # r is rows and c is columns 
>>>> r,c 

(2L, 2L) 

>>>> A.reshape((l1, r * c)) 


array ([[1, 2, 3, 4]]) 











算 中 都 会 用 到 。 另 外 ， 如 果 





这 种 重 塑 操 作 在 许多 代数 运 
以 调用 flatten0 函 数 : 


>>>A.flatten () 
2, 3, 











array ([1, 4]) 














函数 给 指定 数组 重复 填充 相同 的 元 素 。 








另外 ， 还 可 以 通过 一 个 
元 素 被 重复 的 次 数 。 例 如 想 要 对 ndarray 对 象 ! 
函数 : 


























>>> np.repeat (A, 2) 


array([1l, 1, 2, 2, 3, 3, 4, 4]) 


>>> A 
array ([[1, 


2],[3, 4]]) 








是 一 个 扁平 矩阵 , 那么 就 只 需要 对 其 调用 NumPy 库 中 的 reshapeO 函 数 ， 


展 平 ndarray 对 象 ， 也 可 


可 以 根据 需要 指定 这 些 
的 元 素 进行 重复 的 话 , 可 以 这 样 调 














H repeat() 














在 上 述 例子 中 ， 每 个 元 素 按 顺 序 被 重复 两 次 。 另 外 ， 
可 以 用 于 重复 和 矩阵， 具体 使 用 如 下 : 


>>> np.tile (A, 4) 




















array ([[1, 2, 1, 2, 1, 2, 1, 2], [3, 4, 3, 4, 3, 4, 3, 
除 此 之 外 ， 还 可 以 为 矩阵 添加 新 的 行 或 列 。 
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还 有 一 个 功能 类 似 的 tle0 函 数 也 


4]]) 


如 ， 如 果 想 添加 一 行 ， 就 可 以 调用 


8.1 NumPy 111 
concatenate() 函 数 : 


>>> B = np.array([[5, 6]]) 
>>> np.concatenate( (A, B), axis=0) 
array ([[1, 2], [3, 4], [5, 6]]) 


这 一 功能 也 可 以 通过 调用 Vstack() 函 数 来 实现 ， 例 如 : 


>>> np.vstack ((A, B)) 
array ([[1, 2], [3, 4], [5, 6]]) 








当然 ， 如 果 想 要 添加 的 是 一 列 ， 也 只 需 按 以 下 方式 来 调用 concatenate() 函 数 : 


>>> np.concatenate( (A, B.T), axis=1) 
array ([[1, 2, 5], [3, 4, 6]]1) 





uy 小 技巧 : 
Q 或 者 ， 你 也 可 以 通过 hstack0) 函 数 来 添加 列 。 这 与 之 前 
调用 vstack0O 函 数 的 方式 非常 相似 。 


2， 随 机 数 


随机 数 的 生成 也 是 NLP 和 机 器 学 习 领 域 中 许多 任务 都 会 涉及 的 操作 。 下 面 就 来 看 看 在 
这 里 获取 随机 样本 是 多 么 简单 : 





























>>> from numpy import random 

>>> #uniform random number from [0,1] 

>>> random.rand (2, 5) 

array ([[ 0.82787406, 0.21619509, 0.24551583, 0.91357419, 0.39644969]， 
[ 0.91684427, 0.34859763, 0.87096617, 0.31916835, 0.09999382]]) 


除 此 之 外 ， 还 有 一 个 名 为 random.randn() 的 函数 也 可 以 用 来 生成 随机 数 ， 它 会 在 
给 定 区 间 内 生成 正 态 分 布 的 随机 数 。 如 在 下 面 的 示例 中 ， 将 会 在 2 到 5 之 间 生 成 随 
机 数 。 





























>>> random.randn (2, 5) 
array ([[-0.59998393, -0.98022613, -0.52050449, 0.73075943, -0.62518516]， 
[ 1.00288355, -0.89613323, 0.59240039, -0.89803825, 0.11106479]]) 


这 就 是 通过 调用 random.randn(2,5) 这 个 函数 来 实现 的 。 
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8.2 SciPy 














这 个 科学 计算 版 的 Python 或 者 说 SciPy 库 是 一 个 构建 在 NumPy 库 及 其 ndarray 对 象 基 
出 之 上 的 框架 ， 它 基本 上 是 一 个 为 处 理 高 级 科学 计算 (如 优化 操作 、 积 分 运算 、 代 数 运算 
和 傅 里 叶 变 换 等 ) 而 开发 的 库 。 
该 库 的 主要 思路 是 在 高 效 的 内 存 管 理 器 中 ， 通 过 有 效 运用 ndarray 对 象 来 提供 常见 的 科 
学 算法 。 因 为 NumPy 和 SciPy 的 存在 ， 可 以 将 自己 的 注意 力 集中 在 编写 scikit-learn 和 NLTK 
这 样 的 专用 库 上 ， 处 理 一 些 专用 领域 的 问题 。 在 这 方面 Numpy / Scipy 这 样 的 库 提 供 了 很 
大 的 人 便利。 下面， 我们 会 简单 地 为 你 介绍 一 些 由 SciPy 库 所 提供 的 数据 结构 和 常见 操作 ， 
还 将 会 带 你 了 解 一 些 黑 盒 库 的 详细 信息 ， 例 如 会 介绍 scikit-learn 库 ， 带 你 了 解 一 下 其 中 的 






































































































































































































































>>> import scipy as sp 




















上 面 演示 的 是 引入 SciPy 库 的 方式 。 我 们 在 这 里 为 它 起 了 个 别名 ， 你 可 以 按 自 己 的 意 
愿 来 进行 引入 。 
下 面 ， 先 从 自己 比较 熟悉 的 东西 
>>> from scipy.integrate import quad, dblquad, tplquad 


>>> def f£ (x): 
>>> return x 





















































| 


F 始 ， 来 看 看 如 何 通 过 调用 quad0O) 函 数 来 实现 积分 




















>>> x_lower == 0 # the lower limit of x 

>>> x_ upper == 1 # the upper limit of x 

>>> val, abserr = = quad(f, x lower, x upper) 
>>> print val,abserr 

>>> 0.5 ，5.55111512313e-15 




















如 果 求 的 是 x 的 积分 ， 那么 它 就 应 该 是 x2/2， 即 0.5。 当 然 ， 库 中 还 有 其 他 用 于 科学 计 
算 的 函数 ， 具 体 如 下 所 示 。 


FF 人 二 


。 插值 运算 〈scipy.interpolate ) 。 
。 傅 里 叶 变换 (scipy.fftpack)。 
























































。 信号 处 理 (scipy.signal)。 
但 在 这 里 ， 会 把 焦点 集中 在 线性 代数 和 优化 措施 的 议题 上 








T 

















因为 它们 与 机 器 学 习 和 NLP 








~ 
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的 关系 更 密切 一 些 。 
8.2.1 ”线性 代数 


SciPy 的 线性 代数 模块 中 包含 了 大 量 与 矩阵 相关 的 函数 。 这 个 库 对 于 业界 的 最 大 页 
献 ， 恐 怕 就 是 其 对 稀疏 矩阵 〈CSR 矩阵 ) 的 支持 了 ， 很 多 其 他 涉及 矩阵 运算 的 库 都 会 用 
到 它 。 


SciPy 所 提供 的 是 当前 业界 用 来 存储 稀 纹 矩阵 以 及 对 其 进行 相关 数据 操作 的 最 住 方法 
之 一 。 除 此 之 外 ， 它 也 提供 了 一 些 常见 的 操作 ， 如 线性 方程 的 求解 。 它 能 很 好 地 解决 特征 
值 和 特征 向 量 、 和 矩阵 函数 (例如 矩阵 取 突 运算 ) 以 及 其 他 更 复杂 的 操作 (例如 奇异 值 分 解 
(SVD))。 其 中 有 一 些 操作 是 在 机 器 学 习 历 程 中 常会 用 到 的 幕后 优化 措施 。 例如， 这 里 提 到 
SVD 正 是 第 6 章 所 介绍 的 LDA〔 主 题 建 模 ) 的 最 简单 形式 。 


下 面 ， 通 过 一 个 示例 来 演示 一 下 线性 代数 模块 的 具体 用 法 : 



























































































































































>>> A = = sp.rand(2, 2) 

>>> B = = sp.rand(2, 2) 

>>> import Scipy 

>>> X = = solve (A, B) 

>>> from Scipy import linalg as LA 
>>> X = = LA.solve(A, B) 


>>> LA.dot (A, B) 
， 提示: 
名 、、 关于 这 方面 更 详细 的 信息 ， 请 参阅 文档 : 
https://docs.scipy.org/doc/scipy/reference/linalg.html. 


8.2.2 ”特征 值 与 特征 癌 量 


在 一 些 NLP 和 机 器 学 习 相关 的 应 用 中 ,会 将 文档 表示 成 词汇 文档 矩阵 的 形式 。 通 常会 
根据 许多 不 同 的 数学 公式 来 计算 它们 的 特征 值 和 特征 向 量 。 例 如 说 A 是 和 矩阵， 那么 它 就 一 
定 会 存在 一 个 向 量 v， 使 得 Av= 和 v。 

在 这 里 ,和 就 是 特征 值 ，v 就 是 特征 向 量 。 另 外 ， 作 为 最 常用 的 操作 之 一 ， 奇 异 值 分 解 
(SVD) 操作 中 会 需要 用 到 一 些微 积分 功能 。 这 在 SciPy 中 是 很 容易 实现 的 。 

>>> evals = LA.eigvals (A) 


>>> evals 
array ([-0.32153198+0.j, 1.40510412+0.j]) 
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下 面 来 获取 它 的 特征 向 量 : 


>>> evals, evect = LA.eig (A) 








还 可 以 执行 一 些 别 的 和 矩阵 运算 ， 如 求 逆 、 转 置 和 行列 式 : 


>>> LA.inyv (A) 

array ([[-1.24454719, 1.97474827], [ 1.84807676, -1.15387236]]) 
>>> LA.det (A) 

-0.4517859060209965 


8.2.3” 稀 踊 惩 阵 


在 现实 的 应 用 场景 中 ， 通 常会 用 到 的 都 是 一 些 大 多 数 元 素 为 0 的 和 矩阵。 对 于 所 有 的 矩 
阵 运 算 来 说 ， 要 忽略 这 些 非 0 元 素 都 是 非常 低 效 的 。 为 了 解决 这 类 问题 ， 引 入 了 一 种 稀 下 
和 矩阵 的 格式 ， 以 便 以 一 种 简单 的 思路 来 存储 那些 非 0 元 素 。 

简 而 言 之 ， 就 是 这 种 格式 将 大 多 数 元 素 是 非 0 的 矩阵 称 为 密集 和 矩阵， 而 大 多 数 元 素 为 
0 的 和 矩阵 则 被 称 为 稀 玻 和 矩阵。 
正如 你 所 知道 的 ， 算 阵 通常 都 是 一 些 
几 种 不 同 的 存储 稀 玻 矩 阵 的 方式 。 


。 DOK (〈 键 字典 )。 在 这 种 情况 下 ， 字 典 的 键 会 被 存储 成 (row, col) 格式 ， 而 它 的 值 
就 是 所 要 存储 的 元 素 值 。 
。 LOL (列表 的 列表 )。 在 这 种 情况 下 ， 为 目标 结构 的 每 一 行 设置 一 个 列表 ， 并 且 该 
列表 只 索引 非 0 元 素 。 


。 COL (坐标 列表 )。 在 这 种 情况 下 ， 元 素 会 以 (row, col, value) 列表 的 形式 被 存储 
成 一 个 列表 。 


。 CRS /CSR 按 行 压缩 存储 )。CSR 拢 阵 会 先 按 行 读 取 元 素 ， 然 后 用 列 索引 的 方式 来 存 
储 每 一 个 元 素 值 ， 同 时 将 相应 行 的 指针 存储 下 来 ， 表 示 成 (val，col_ind，row_ptr) 三 
元 组 。 这 里 的 val 就 是 一 个 包含 矩阵 中 非 0 元 素 的 数组 ，col ind 则 表示 的 是 对 应 元 素 
的 列 索引 ， 最 后 的 row_ptr 则 指向 了 val 中 被 索引 元 素 值 所 在 的 列表 , 它 是 各 行 的 起 始 
位 置 "。 这 种 方式 的 名 称 反 映 了 一 个 事实 ， 就 是 它 事实 上 是 对 COO 存储 格式 进行 了 压 
缩 。 这 种 格式 能 有 效 地 处 理 算 术 运 算 、 列 切片 操作 、 和 矩阵 向 量 的 乘积 等 问题 。 











































































































行 和 列 索引 其 元 素 值 的 二 维 数组 。 但 现在 来 介 
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@ 译 者 注 : 原文 在 这 里 似乎 是 将 CSR 描绘 成 了 CSC， 然 后 又 在 后 面 的 CSC 重复 了 一 遍 ， 译 者 在 这 里 做 了 自行 更 正 。 
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提示 : 
更 详 细 的 1 言 息 请 参 阅 : 
http://docs.scipy.org/doc/scipy-0.15.1/reference/ 


generated/scipy.sparse.csr_matrix.html. 


























。 CSC 稀 琉 列 ) “”。 这 种 方式 与 CSR 基本 相同 ， 只 不 过 这 里 的 值 要 先 按 列 读 取 ， 然 后 用 行 
索引 存储 每 个 元 素 , 并存 储 列 指针 。 换 名 话说 ,CSC 的 表示 形式 是 (val, row_ind, col ptr)。 


提示 


这 部 分册 容 也 可 以 查看 文档 : 


http://docs.scipy.org/doc/scipy-0.15.1/reference/ 























几 让 


generated/scipy.Sparse.csc_matrix.html 。 











下 面 ， 就 来 亲自 实践 一 下 CSR 矩阵 的 操作 。 假 设 现在 有 一 个 稀 玻 矩阵 4: 


>>> from scipy import SParse as S 
>>> A = array([[1,0,0],[0,2,0], [0,0,3]]) 
>>> A 
array ([[1, 0, 0], [0, 2, 0], [0, 0, 3]]1) 
>>> from scipy import sparse as sp 
>>> C = = sp.csr matrix (A); 
>>> C 
<3x3 sparse matrix of type '<tyPe 'NumPy.int32 '>' 
with 3 stored elements in Compressed Sparse Row format> 
































如 你 所 见 ， 这 个 CSR 矩阵 中 上 只 存储 了 三 个 元 素 。 下 面 再 来 看 看 它 实 际 存储 了 什么 : 


>>> C.toarray () 

array ([[1, 0, 0], [0, 2, 0], [0, 0, 3]]) 
>>> C * C.todense () 

matrix([[1, 0, 0], [0, 4, 0], [0, 0, 9]]) 























正如 所 期 待 的 那样 ，CSR 矩阵 实际 上 并 没有 咯 过 所 有 的 0， 用 它 可 以 得 到 与 原 矩 阵 一 
样 的 计算 结果 。 


>>> dot(C, C) .todense () 


8.2.4 优化 措施 


读者 要 明白 一 件 事 ， 即 每 当 要 在 后 台 构 建 一 个 分 类 器 或 标注 器 时 ， 所 做 的 一 切 都 是 为 

































































@ 译 者 注 : 这 种 方式 与 CSR 相对 应 ， 因 此 也 叫 作 按 列 压 缩 存储 。 
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了 执行 某 种 优化 历程 。 下 面 来 对 SciPy 库 中 所 提供 的 函数 做 一 些 基 本 的 了 解 。 从 求 给 定 多 
项 式 的 最 小 值 开 始 ， 下 面 代码 所 演示 的 就 是 SciPy 库 在 这 方面 的 一 个 优化 例 程 。 


>>> def f£ (x): 

>>> returnx return x**2-4 
>>> optimize.fmin bfgs (f,0) 
Optimization terminated successfully. 





















































Current function value: -4.000000 
Iterations: 0 
Function evaluations: 3 
Gradient evaluations: 1 
array ([0]) 




















这 里 的 第 一 个 参数 是 用 来 求 最 小 值 的 函数 , 而 第 二 个 参数 则 是 对 该 最 小 值 的 初始 猜测 。 
在 这 个 例子 中 ， 我 们 已 经 知道 了 最 小 值 为 0。 如 果 读 者 还 想 获取 更 多 详细 信息 ， 也 可 以 在 
这 里 调用 le 












































' 


>>> help (optimize.fmin bfgs) 
Help on function fmin bfgs in module Scipy .optimize.optimize: 


fmin bfgs(f, x0, fprime=None, args=(), gtol=le-05, norm=inf, 
epsilon=1 .4901161193847656e-08, maxiter=None, full output=0, disp=1, 
retall=0, callback=None) 

Minimize a function using the BFGS algorithm. 


Parameters 
f : callable f(x,*args) 
Objective function to be minimized. 
x0 : ndarray 
Initial guess. 
>>> from scipy import optimize 
optimize.fsolve(f, 0.2) 
array([ 0.46943096]) 


>>> def fl def fl1 (x,y): 

>>> return x xx 2+ y xx 2 - 4 
>>> optimize.fsolve (fl1, 0, 0) 
array([ 0.]) 




















总 而 言 之 , 读者 现在 应 该 对 于 SciPy 库 中 最 基本 的 那些 数据 结构 有 了 充足 的 知识 准备 ， 
并 了 解 了 其 中 的 一 些 最 常用 的 优化 技术 。 目 的 并 不 止 是 要 鼓励 你 去 运行 一 些 与 机 器 学 习 或 
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去 看 看 那些 源 代 码 ， 并 试 着 去 理解 它们 。 







































































k 体 的 实现 不 仅 有 助 于 对 算法 的 理解 ， 而 且 还 能 在 优化 / 
































二 
需要 。 


8.3 pandas 


下 面 来 讨论 一 下 pandas 库 ， 这 也 是 Python 中 最 令 人 兴奋 的 库 之 一 ， 尤 其 是 对 于 那 
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然 语言 处 理 相关 的 应 用 ， 而 是 希望 你 要 超越 自己 所 用 的 这 些 ML 算法 所 在 的 数学 语 境 ， 

















定义 的 过 程 中 去 实现 自己 的 


























些 喜 欢 R 语言 的 人 来 说 ， 想 要 在 Python 中 以 更 向 量化 的 方式 来 操作 数据 ， 就 非 它 莫 属 
了 。 我 们 会 在 这 一 节 中 专门 介绍 pandas 库 ， 讨 论 一 些 pandas 框架 下 的 基本 数据 操作 和 












































相关 处 理 。 
8.3.1 读 取 数据 





I 








bl 











a 


提示 : 
在 这 里 使 用 的 是 以 下 两 份 文 件 : 


MW 


Q adult/adult.data; 


E 来 看 所 有 数据 分 析 问 题 中 的 最 重要 的 任务 ， 如 何 解析 CSV /其 他 文件 中 的 数据 。 


https://archive.ics.uci.edu/ml/machine-learning-databases/ 


https://archive.ics.uci.edu/ml/machine-learningdatabases/ 


1ris/iris.names., 


当然 ， 读 者 也 可 以 自行 选择 其 他 CSV 文件 。 


首先 ， 要 将 上 述 链接 中 的 数据 文件 下 载 到 本 地 存储 起 来 ， 
架 中 ， 有 共 体 如 下 : 


>>> import pandas as Pd 

















并 将 其 








加 载 到 pandas 数据 框 


>>> # Please Provide the absolute Path of the input file 
>>> data = Pd.read_csv("PRATHNNXILis.data.txt" header=0") 


>>> data.head () 











4.9 3.0 1.4 0.2 Iris-setosa 
0 4.7 3.2 1.3 0.2 Iris-setosa 
1 4.6 3.1 1.3 0.2 Iris-setosa 
2 5.0 3.6 1.4 0.2 Iris-setosa 














异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 








118 


在 这 里 ， 需 要 将 CSV 文 作 





N 


one， 然 后 再 将 列表 名 作为 











行 的 行 号 。 


已 经 有 了 完美 形式 的 标题 ， 寻 
况 下 ， 它 会 始终 


设 第 


假 


被 当 作 是 标题 (header); 所 以 如 果 要 设 
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如 


F 读 取 并 存储 到 DataFrame 中 。 在 读 取 CSYV 文件 
许多 选项 可 用 。 其 中 要 面 对 的 一 个 问题 就 是 : 所 读 取 的 第 一 行 数据 在 DataFrame 中 会 














真 1 












































束 不 需要 担心 pandas 库 时 








时 ， 有 





E 的 标题 ， 就 需要 将 其 header 选项 设置 为 
的 列 名 来 传递 给 DataFrame。 当 然 ， 如 果 CSV 文件 ! 























所 以 下 面 要 为 之 前 所 用 的 同一 批 数据 添加 一 些 标题 : 


>>> data = pd.read csv ("PATH\\iris.data.txt", names=["sepal length", 


"sepal width", 


>>> data.head () 


"petal length", 


"petal width", 


PF 的 标题 问题 了 ， 因 为 在 默认 情 
一 行 数据 为 标题 。 之 前 代码 中 开头 的 0 实际 上 就 被 当成 了 标题 











"Cat"], header=None) 



















































































sepal length sepal width petal length petal width Cat 

0 4.9 3.0 1.4 0.2 Iris-setosa 

1 4.7 3.2 1.3 0.2 Iris-setosa 

2 4.6 3.1 1.5 0.2 Iris-setosa 
这 样 一 来 ， 就 为 这 个 框架 创建 了 一 系列 临时 列 名 。 当 然 ， 如 果 文 件 本 身 第 一 行 就 是 其 标 
题 的 话 ， 就 可 以 撤 下 前 面 的 标题 选项 ， 这 样 pandas 库 就 会 将 其 检测 到 的 文件 首 行 当 作 标题 。 
除 此 之 外 ， 作 为 常见 选项 的 还 有 Sep/Delimiter， 其 主要 用 于 指定 列 的 分 隔 符 。 而 在 读 取 和 清 























理 数据 的 具体 方式 上 ， 
特定 列 进 行 索 引 等 。 下 面 ， 来 看 一 下 其 在 不 同文 伯 





人 














至 少 有 2 

















。 read_csv: 读 取 CSV 文件 。 


当然 ， 这 些 都 可 以 在 第 2 章 中 所 讨论 的 那些 不 同 解析 方法 ， 





read_excel: 读 取 XLS 文件 。 


read_hdf: 读 取 HDFS 文件 。 








read sql: 读 取 SQL 文件 。 
read_json: 读 取 JSON 文件 。 








写 文 件 时 也 有 相同 数量 的 选项 是 可 用 的 。 
接 下 来 看 看 pandas 框架 具体 有 多 大 的 能 力 。 如 果 你 是 个 R 程序 员 , 想必 会 喜欢 看 到 类 











似 RR 语言 中 的 摘要 和 标题 选项 。 


>>> data.describe() 





0 个 不 同 的 优化 选 
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找到 蔡 代 方案 。 另 外 ， 在 

















项 可 用 ， 例 如 删除 Na、 删 除 空白 行 以 及 对 
类 型 上 的 表现 ; 

















这 里 的 describe() 函 数 将 会 














为 你 提供 一 份 关 于 每 一 列 以 及 相关 叭 


8.3 pandas 














mr 
区 
ey 
或 
烛 
Se 
1 
G 

o 








>>> sepal len cnt=data['sepal length'] .value counts() 


>>> sepal len cnt 


5.0 10 
6.3 9 
6.7 8 
5,7 8 
5.1 8 


dtype: int64 


>>>datal['Iris-setosa'] .value counts() 


Iris-versicolor 50 
Iris-virginica 50 
Iris-setosa 48 


dtype: int64 


为 了 满足 R 语言 的 爱好 者 ， 现 在 处 理 向 量 也 可 以 通 


个 值 : 
>>>data['Iris-setosa'] == 'Iris-setosa' 
0 True 
1 True 


147 False 
148 False 


Name: Iris-setosa, Length: 149, dtype: bool 


现在 还 可 以 对 DataFrame 

















进行 过 滤 。 例 如 这 里 的 setosa 只 能 匹配 与 Fis-setosa 相关 的 条 目 。 











过 这 样 的 东西 








>>> sntsosa=data[data['Cat'] == 'Iris-setosa'] 


>>> Sntsosa[:5] 














这 其 实 就 是 典型 的 SQL 分 组 函数 。 其 他 聚合 函数 的 情况 也 差不多 是 这 样 。 


提示 : 








你 可 以 通过 下 面 链 接 来 查看 道琼斯 的 数据 : 
https://archive.ics.uci.edu/ml/machine- learningdatabases/ 
00312/。 


8.3.2 ”数列 

















pandas 库 中 也 有 一 种 按 








异步 社 
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FP 时间 顺 序 对 划 


进行 
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数据 分 析 。 这 样 做 最 大 的 优点 就 是 只 要 按 日 期 对 数据 进行 了 索引 ， 那 些 最 令 人 痛苦 的 日 期 
操作 就 是 一 个 命令 的 事 。 下 面 ， 就 来 具体 看 看 序列 数据 的 处 理 ， 例 如 这 里 有 几 支 股票 的 股 



























































价 数据 及 其 每 周 开盘 价 和 收盘 价 的 变化 。” 


>>> import Pandas as Pd 


>>> Stockdata = pd.read csv("dow jones index.data" ,Parse dates=['date'], 


index col=['date'] ,nrows=100) 
>>> stockdata .head() 











date quarter | stock | open high low close volume |percent change price 
01/07/2011 |1 AA |$15.82 |$16.72 |$15.78 |$16.42 |239655616 |3.79267 
01/14/2011 |1 AA |$16.71 |$16.71 |$15.64 |$15.97 |242963398 |-4.42849 
01/21/2011 |1 AA |$16.19 |$16.38 |$15.60 |$15.79 |138428495 |-2.47066 


























>>> max (stockdata['volume']) 
1453438639 

>>> max (stockdata['percent change price']) 
7.6217399999999991 

>>> stockdata .index 

<class 'pandas.tseries.index.DatetimeIndex'> 

[2011-01-07, ..., 2011-01-28] 

Length: 100, Freq: None, Timezone: None 

>>> stockdata.index.day 


array([ 7, 14, 21, 28, 4, 11, 18, 25, 4, 11, 18, 25, 7, 14, 21, 28, 4,11, 


18, 25, 4, 11, 18, 25, 7, 14, 21, 28, 4]) 








上 述 命令 给 出 的 是 每 个 日 期 的 日 信息 。 8 


>>> stockdata.index.month 




















上 述 命令 将 会 按 月 列 出 不 同 的 值 。 


>>> stockdata.index.year 











上 述 命令 将 会 按 年 列 出 不 同 的 值 。 




















也 可 以 通过 一 个 名 为 resample 的 函数 按照 自己 的 想法 对 数据 进行 聚合 。 它 的 选项 包括 





@ 译 者 注 : 在 这 里 ， 为 了 让 表格 与 代码 保持 一 致 ， 就 不 对 表 头 部 分 进行 翻译 了 ， 下 同 。 
@ 译 者 注 : 此 处 原 文人 平阳 对 不 上 ， 如 果 按 照 原 文 day ofthe week for each date， 上 面 调用 的 应 该 是 stockdata.index.dayofweek。 
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sum、mean、median、min 和 max。 


>>> import numpy as np 
>>> stockdata.resample('M', how=np.sum) 


8.3.3” 列 转换 


假设 现在 想 要 过 滤 某 些 列 或 添加 列 ， 就 可 以 用 刚才 提供 的 列 之 列表 来 充当 axisl 参数 来 
实现 它 。 可 以 像 下 面 这 样 来 删除 数据 框架 中 的 某 列 数据 : 


>>> stockdata.drop(["percent change volume over last wk"] ,axis=1) 



































下 面 来 过 滤 掉 一 些 自己 不 想 要 的 列 ， 并 且 将 工作 限制 在 某 一 组 列 中 。 为 此 ， 可 以 像 这 
样 新 建 一 个 DataFrame: 

















>>> stockdata new = pd.DataFrame (stockdata, columns=["stock","open","high" 
"low","close","volume"]) 
>>> stockdata new.head() 


还 可 以 执行 一 些 类 似 于 R 语言 中 的 列 操 作 ， 如 说 重 命 名 列 。 男 外 ， 也 可 以 做 这 样 
的 事 : 


>>> stockdata["previous weeks volume"] = 0 














这 会 将 目标 列 中 的 所 有 值 都 更 改 为 0， 可 以 有 条 件 地 执行 这 样 的 操作 ， 并 在 其 中 创建 
一 些 派生 变量 。 


8.3.4 噪声 数据 


通常 情况 下 ， 数 据 科学 家 每 天 的 日 常生 活 都 是 从 数据 清洗 开始 。 这 项 任务 包括 移 除 品 
声 、 清 除 一些 不 想 要 的 文件 、 确 保 日 期 格式 的 正确 、 忽 略 干扰 性 记录 并 处 理 丢 失 的 值 。 总 
之 ， 数 据 清理 所 占用 的 时 间 段 往往 是 最 大 的 ， 其 他 活动 并 非 如 此 。 

在 实际 的 应 用 场景 中 , 数据 在 大 多 数 情况 下 都 是 混乱 的 ,我 们 必须 处 理 其 中 的 缺失 值 、 
空 值 、Na 以 及 其 他 格式 问题 。 因 此 ， 任 何 处 理 数 据 的 程序 库 的 一 个 主要 功能 就 是 要 能 处 理 
上 述 问 题 并 能 以 有 效 的 方式 解决 它们 。 对 于 这 其 中 的 一 些 问 题 ，pandas 库 倒 也 提供 了 一 些 
令 人 惊叹 的 功能 。 

>>> stockdata .head() 

>>> stockdata .dropna() .head (2) 




















































































































































































































































































































通过 上 面 的 命令 ， 清 除 掉 了 目标 数据 中 所 有 的 Na。 
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date quarter | stock | open high low close volume percent_change_price 
01/14/2011 |1 AA |$16.71 |$16.71 |$15.64 |$15.97 |242963398 |-4.42849 
01/21/2011 |1 AA |$16.19 |$16.38 |$15.60 |$15.79 138428495 | 一 2.47066 
01/28/2011 |1 AA |$15.87 |$16.63 |$15.82 |$16.13 151379173 |1.63831 
































另外 ， 你 应 该 也 注意 到 一 些 值 之 前 有 个 $ 符 ， 它 会 给 数字 操作 带 来 一 些 困 难 。 下 面 要 来 























解决 这 一 麻烦 ， 因 为 不 这 样 做 ， 它 会 干扰 结果 例如 可 能 会 导致 $ 43.86 不 是 最 值 )。 


>>> import numpy 
>>> stockdata new.open.describe() 


count 100 
unique 99 
top $43.86 
freq 2 


Name: open, dtype: object 


还 可 以 针对 两 列 数据 执行 一 些 操作 ， 并 从 中 生成 一 个 新 变量 : 




















>>> stockdata new.open = stockdata new.open.str.replace('$', '') .convert 
objects (convert numeric=True) 
>>> stockdata new.close = stockdata new.close.str.replace('$', ''). 


convert objects (convert numeric=True) 

>>> (stockdata new.close - stockdata new.open) .convert objects (convert 
numeric=True) 

>>> stockdata new.open.describe() 


count 100.000000 
mean 51.286800 
std 32.154889 
min 13.710000 
25% 17.705000 
50% 46.040000 
75% 72.527500 
max 106.900000 


Name: open, dtype: float64 


也 可 以 执行 一 些 算术 运算 ， 并 为 此 创建 新 的 变量 。 


>>> Stockdata_new['newopen '] = stockdata new.open.apply(lambda x: 0.8 * x) 
>>> stockdata new.newopen.head (5) 


另外 ， 还 可 以 用 下 面 这 种 方式 来 过 滤 某 列 值 中 的 数据 。 例 如 ， 从 上 面 的 股票 值 中 过 滤 
其 中 一 个 公司 的 数据 集 。 
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>>> stockAA = stockdata new.query('stock=="AA"') 
>>> stockAA .head() 


总 而 言 之 ， 这 一 节 介 绍 了 一 系列 pandas 库 中 与 数据 读 取 、 清 理 、 操 纵 以 及 聚合 有 关 的 











实用 函数 。 下 一 节 来 看 看 如 何 利用 这 些 数据 框架 产生 针对 这 些 数据 的 可 视 化 图 表 。 











+ 济 









































8.4 matplotlib 














matplotlib 是 Python 语言 环境 中 一 个 非常 受 欢迎 的 可 视 化 库 。 接 下 来 ， 将 为 你 介绍 一 
些 最 常用 的 可 视 化 应 用 。 首 先导 入 这 个 库 : 


>>> import matplotlib 
>>> import matplotlib.pyplot as plt 














>>> import numpy 


下 面 ， 要 利用 运行 在 道琼斯 指数 上 的 数据 集 来 执行 一 些 可 视 化 操作 。 之 前 ， 已 经 拥有 
了 公司 “AA” 的 股票 数据 。 下 面 要 为 一 家 新 公司 CSCO 再 创建 一 个 数据 框架 ， 然 后 围绕 着 
























































它 进行 一 些 绘制 工作 : 


stockCSCO = stockdata new.query('stock=="CSCO"') 
stockCSCO .head () 
from matplotlib import figure 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


plt. 
plt. 
plt. 
.ylabel('stock close value') # add label to y-axis 


plt 


plt. 
plt. 


figure() 
scatter (stockdata new.index.date,stockdata new.volume) 
xlabel('day') # added the name of the x axis 


title('title') # add the title to your graph 
savefig ("matplotl.jpg") # savefig in local 





还 可 以 将 上 面 绘 制 的 图 保存 为 JPEG /PNG 文件 ， 只 需要 调用 savefig0 函 数 ， 例 如 ; 


>>> plt.savefig ("matplotl .jpg") 


8.4.1 了 于 图 绘制 


子 图 绘制 法 是 布局 整体 绘制 的 最 佳 方式 。 这 就 像 在 一 块 画布 上 工作 ， 可 以 在 上 面 不 止 














有 一 轮 给 





制 ， 























而 是 多 轮 绘制 的 营 加 。 下 例 将 会 进行 四 轮 绘 制 。 通 过 参数 numrow、numcol 








来 定义 画布 » 














并 在 下 一 个 参数 指定 绘制 的 编号 。 











>>> plt.subplot(2, 2, 1) 
>>> plt.plot(stockAA.index.weekofyear, stockAA.open, 'r--') 
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>>> plt.subplot(2, 2, 2) 


>>> plt.plot(stockCSCO.index.weekofyear, stockCSCO.open, 


>>> plt.subplot (2, 2, 3) 


>>> plt.plot(stockAA.index.weekofyear, stockAA.open, 


>>> plt.subplot(2, 2, 4) 


>>> plt.plot(stockCSCO.index.weekofyear, stockCSCO.open, 


>>> plt.subplot (2, 2, 3) 
>>> plt.plot(x, y, 'g--') 
>>> plt.subplot(2, 2, 4) 
>>> plt.plot(x, y, 'r-*') 
>>> fig.savefig("matplot2 .png") 


以 上 代码 的 输出 如 图 8-1 所 示 。 


17.4 
17.2 
17.0 
16.8 

















Ia 
已 
pe 
Ny 











图 8-1 
也 可 以 用 一 些 更 优雅 的 做 法 来 进行 多 次 绘制 ! 






































>>> fig, axes = plt.subplots (nrows=1, ncols=2) 
>>> for ax in axes: 


>>> ax.plot(x, y, 'r') 
>>> ax.set xlabel('x') 
>>> ax.set ylabel('y') 
>>> ax.set title('title'); 





























如 你 所 见 ， 可 以 有 很 多 种 编写 代码 的 方式 ， 这 更 像 是 在 通用 的 Python 环境 中 ， 按 自身 








所 想 的 方式 处 理 不 同方 面 的 绘制 问题 。 
8.4.2 ”添加 坐标 轴 








可 以 通过 调用 addaxisO 函 数 来 为 图 片 添加 轴 。 通 过 向 图 片 中 添加 轴 
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'g-*') 


'g--') 


'r-*!) 


























， 可 以 定义 一 块 属 


于 自己 的 绘制 区 域 。addaxisO 的 调用 参数 如 下 : 


*widthx ， 





*rect* [*left*, *bottom*, 
>>> fig = plt.figure() 
fig.add axes([0.1, 0.1, 0 
(range 0 to 1) 


>>> axes 


>>> axes.plot(x, y, 'r') 
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*height*] 


.8, 0.8]) # left, bottom, width, height 


下 面 ， 来 绘制 一 些 最 常用 的 图 



































和 标签 这 样 的 ， 和 之 前 的 工作 方式 依然 是 一 样 的 。 只 是 绘制 的 种 类 会 有 所 变化 。 











如 果 和 希望 通过 坐标 轴 来 添加 一 个 x 标签 ， 一 个 y 标签 和 一 个 标题 ， 其 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


.Set title('Weekly change in 
ax. 
plt.savefig("matplot3.jpg") 











fig = plt.figure() 


fig.add axes([0.1, 0.1, 0.8, 0.8]) 


.Set ylabel('stock value') 


stock price') 


legend (loc=2); # upper left corner 





I 





请 读者 自行 尝试 编写 上 述 代 码 ， 并 观察 














23 ” Weekly change in stock price 
AA 
22 CSCO 人 \ 


21 


20 


stock value 














命令 如 下 : 





.Plot (stockAA .index .weekofyear,stockAA.open,label="AA") 
.Plot (stockAA .index .weekofyear,stockCSCO.open,label="CSCO") 
.Set xlabel ('weekofyear') 


输出 ! 如 图 8-2 所 示 。 






































图 8-2 
8.4.3” 散 点 图 绘制 
绘制 图 最 简单 的 形式 之 一 就 是 针对 x 轴 的 不 同 值 来 绘制 y 轴 的 点 。 下 面 示例 会 尝试 在 
一 幅 散 点 图 中 捕捉 股价 每 周 的 变化 : 
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形 类 型 。 这 里 最 棒 的 一 件 事 是 ， 大 部 分 的 参数 ， 像 标题 
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>>> import matplotlib.pyplot as plt 

>>> plt.scatter (stockAA.index .weekofyear, stockAA .open) 
>>> plt.savefig ("matplot4 .jpg") 

>>> plt.close() 


8.4.4 ”条 形 图 绘制 


为 直观 起 见 ， 可 以 用 下 面 这 种 条 形 图 来 反映 y 轴 上 的 值 相 对 于 x 轴 的 分 布 情况 。 下 面 
就 具体 来 示范 一 下 如 何 通过 绘制 条 形 图 来 显示 数据 。 


>>> n = 12 

>>> X = np.arange (n) 

>>> YI np.random.uniform(0.5, 1.0, n) 

>>> Y2 = np.random.uniform(0.5, 1.0, n) 

>>> plt.bar (X, +Y1, facecolor='#9999ff', edgecolor='white') 
>>> plt.bar (X, -Y2, facecolor='#ff£f9999', edgecolor='white') 


8.4.5 3D 绘 


































































































也 可 以 用 matplotlib 库 来 构建 一 些 壮观 的 三 维 可 视 化 图 表 。 下 面 就 来 示范 一 下 如 何 用 
matplotlib 库 来 创建 三 维 绘制 图 。 


>>> from mpl toolkits.mplot3d import Axes3D 

>>> fig = plt.figure() 

>>> ax = Axes3D (fig) 

>>> .arange (-4, 4, 0.25) 

>>> Y = np.arange(-4, 4, 0.25) 

>>> X, Y = np.meshgrid(X, Y) 

>>> R = np.sqrt(X**2+ + Y**2) 

>>> 2 = nP.sin(R) 

>>> ax.plot surface(X, Y, 2Z, rstride=1, cstride=l1, cmap='hot') 


8.5 参考 资料 


























x 
5 
忆 





我 们 希望 琢 励 读者 去 阅读 一 下 下 面 链接 中 的 内 容 ， 以 便 更 详细 地 了 解 这 些 库 的 方 方 面 
面 ， 进 而 获得 更 多 的 资源 。 


























e http:/www.NumPy.org/。 
e http:/Wwww.Scipy.org/。 


e http://pandas.pydata.org/。 
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e http:/matplotlib.org/。 


8.6 小 结 


























本 章 对 一 些 最 基本 的 Python 库 进 行 了 简单 的 概要 性 介绍 , 这些 库 在 处 理 文 本 及 其 他 数 
据 时 能 完成 很 多 重要 工作 。NumPy 库 可 以 帮助 用 户 处 理 数 值 计 算 的 问题 ， 并 提供 解决 这 类 
问题 所 需 的 一 些 数据 结构 。SciPy 库 则 主要 用 于 处 理科 学 计算 ， 业 界 有 许多 各 种 各 样 的 
Python 库 都 会 用 到 它 。 我 们 学 习 了 这 些 函 数 和 数据 结构 的 具体 用 法 。 

另外 , 本章 还 对 pandas 库 进 行 了 介绍 , 这 是 一 个 非常 有 效率 的 针对 数据 操纵 的 程序 库 ， 
并 在 最 近 这 段 时 间 内 发 挥 出 了 巨大 的 优势 。 最 后 ， 还 带 你 快速 浏览 了 Python 环境 中 最 常用 
的 可 视 化 库 : matplotlib。 

下 一 章 将 会 把 焦点 转向 社交 媒体 。 还 会 介绍 如 何 从 一 些 常见 的 社交 网 络 捕获 相关 的 数 
据 ， 并 借 此 来 产生 针对 社交 媒体 的 有 意义 的 见解 。 
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这 一 章 来 讨论 一 下 社交 媒体 。 虽 然 这 方面 的 内 容 与 NLTK/NLP 没有 直接 关系 ， 但 社交 数 
据 也 是 一 种 非常 丰富 的 非 结 构 化 文本 的 数据 源 。 作 为 NLP 爱好 者 ， 我 们 应 该 掌握 一 些 处 理 社 
交 数 据 的 技能 。 本 章 将 会 探讨 如 何 从 一 些 目前 最 受 欢 迎 的 社交 媒体 平台 中 收集 到 相关 数据 。 还 
会 介绍 如 何 利用 Python API 来 从 Twitter、Facebook 等 社交 媒体 中 收集 数据 。 还 会 探讨 一 些 在 
社交 媒体 挖掘 领域 中 最 常见 的 用 例 ， 例 如 热门 话题 、 情 绪 分 析 等 。 

我 们 在 前 面 的 章节 中 已 经 学 习 了 许多 与 自然 语言 处 理 和 机 器 学 习 相 关 的 概念 性 话题 。 
本 章 将 会 试 着 围绕 一 些 社交 数据 来 构建 一 些 应 用 程序 。 本 章 还 提供 了 一 些 针 对 社交 数据 处 
里 的 最 佳 实践 ， 并 以 可 视 化 图 形 的 方式 来 查看 这 些 社交 数据 。 
社交 媒体 都 会 在 在 一 个 基础 性 的 图 结构 ， 而 大 多 数 基 于 图 结构 的 问题 都 可 以 被 表述 成 
某 种 信息 流 问题 ， 并 找 出 该 图 结构 中 最 繁忙 的 节点 。 像 热门 话题 、 影 响 力 检测 以 及 情绪 分 
析 这 些 问题 都 是 很 好 的 例子 。 下 面 就 通过 这 些 具 体 的 用 例 ， 围 绕 社交 网 络 来 构建 一 些 酷 炫 
的 应 用 程序 吧 。 

在 阅读 完 本 章 之 后 ， 我 们 希望 你 能 掌握 以 下 内 容 。 

。 知道 如 何 用 相关 API 收集 任意 社交 媒体 中 的 数据 。 

。 学 会 如 何 用 某 种 结构 化 格式 来 表述 数据 ， 并 以 此 构建 出 一 些 很 棒 的 应 用 程序 。 

。 可 以 为 社交 数据 绘制 可 视 化 图 形 ， 并 能 对 其 进行 有 意义 的 观察 。 


9.1 数据 收集 
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本 章 最 重要 的 目标 是 要 介绍 如 何在 一 些 业界 最 常见 的 社交 网 络 之 间 进 行 数据 收集 。 
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本 章 主 要 以 Twitter 和 Facebook 为 实验 对 象 ， 为 你 详细 、 充 分 地 介 
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绍 与 这 两 个 社交 媒体 




















有 关 的 API 信息 ， 以 及 如 何 有 效 地 利用 它们 来 获取 相关 数据 。 此 乡 




















卜 ， 还 将 讲解 与 废弃 数 


















































据 相 关 的 数据 字典 ， 以 及 如 何 利用 目前 所 学 到 的 知识 来 构建 一 些 酷 炫 的 应 用 程序 。 


Twitter 










































































先 从 目前 最 流行 、 最 开放 的 且 完 全 公开 的 社交 媒体 开始 入 手 。 这 实际 上 就 意味 着 可 能 





要 去 收集 整个 Twitter 流 中 的 信息 , 但 这 是 要 付费 的 , 但 可 以 免费 捕获 其 中 百 分 之 一 的 信息 。 























非常 丰富 的 信息 资源 。 




















在 商业 背景 下 ， 对 于 那些 想 要 了 解 公 众 情绪 、 新 兴 话 题 这 类 信息 的 人 来 说 ，Twitter 是 一 个 


下 面 ， 就 来 解决 如 何 从 tweet 中 获取 与 用 例 相 关 信 息 这 一 主要 问题 吧 。 








提示 : 


下 面 链接 中 列 出 了 许多 Twitter 程序 库 的 代码 仓库 . 当 
铭 、、 然 ， 这 些 程序 库 都 没有 经 过 Twitter 官方 的 验证 ， 但 它 


们 都 可 以 基于 Twitter API 来 运行 : 


https://dev.twitter.com/overview/api/twitterlibrarie 





S。 





























tk 有 这 方面 功能 的 Python 库 绝对 超过 10 个 , 所 以 可 以 选择 任意 














个 自己 自己 喜欢 的 。 

















































































































安装 Tweepy 最 简单 的 方法 是 使 用 pip: 
$ pip install tweepy 


提示 : 


由 于 我 自己 通常 会 选择 Tweepy， 所 以 这 里 将 会 使 用 它 来 完成 本 书 中 的 示例 。 这 些 程序 库 大 
部 分 都 是 一 些 Twitter API 的 封装 器 ， 因 此 它们 的 参数 和 签名 也 大 致 相同 。 








源 代码 安装 是 比较 难 的 一 种 安装 方式 ,Tweepy 在 github 
A 


上 的 链接 如 下 : 
https://github.com/tweepy/tweepy. 


当然 ， 如 果 想 要 让 Tweepy 能 够 正常 工作 ， 必 须 在 Twitter 上 创建 一 个 开发 者 帐户 ， 为 











将 要 创建 的 应 用 获取 访问 令 牌 。 在 完成 这 些 动作 之 后 ， 就 会 得 到 属 ]] 


自己 的 的 资格 验证 以 


及 这 些 验 证 信息 下 面 的 密 钥 。 也 可 以 在 https://apps.twitter.com/app/new 中 注册 并 获取 令 牌 。 











@ 译 者 注 : 经 译 者 查证 ， 该 链接 已 经 失效 ， 读 者 可 以 通过 访问 https://dev.twitter.com/resources/twitter-libraries 来 获取 相关 内 容 。 
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显示 的 就 是 一 个 访问 令 牌 的 快照 : 


OAuth settings 








砚 


下 











ur a at Auth settings. Keep the "Cor er secret” a Secret This key sh never be an-readable 


Your access token 


Recreate my access token 
E 来 看 一 个 非常 简单 的 例子 : 通过 Twitter 信息 流 的 API 来 收集 数据 。 使 用 Tweepy 来 
获 Twitter 流 ， 收 集 其 中 所 有 与 给 定 关键 字 相关 的 tweet: 


tweetdump .py 
>>> from tweepy.streaming import StreamListener 




















bh 












































>>> from tweepy import OAuthHandler 
>>> from tweepy import Stream 
>>> import sys 


>>> consumer key = 'ABCDO12XXXXXXXXx' 
>>> consumer secret = 'xyzZ123xxxxxxxxxxxxx' 
>>> access token = '!000000-RABCDXXXXXXXXXXX 


>>> access token secret ='XXXXXXXXXgaw2KYzZ0VcqCO0F3U4' 
>>> class StdOutListener (StreamListener): 





>>> def on datal(self, data): 

>>> with open(sys.argv[1],'a') as tf: 

>>> tf.write (data) 

>>> return 

>>> def on error(self, status): 

>>> print (status) 

>>> if name == ' main ': 

>>> 1 = StdoutListener() 

>>> auth = OAuthHandler (consumer key, consumer secret) 
>>> auth.set access token (access token, access token secret) 
>>> stream = Stream(auth, 1) 

>>> stream.filter (track=['Apple watch']) 
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上 述 代码 使 用 了 与 Tweepy 示例 相同 的 代码 ， 并 作 了 稍 许 修改 。 这 个 例子 示范 了 如 何 
使 用 Twitter 信息 流 的 API， 跟 踪 的 关键 词 是 Apple Watch。Twitter 信息 流 的 API 在 这 里 实 
















































































































































































际 提供 的 就 是 在 Twitter 信息 流 中 执行 搜索 的 功能 , 可 以 用 该 API 查看 其 信息 流 中 最 多 百 分 
之 一 的 信息 。 

对 于 上 述 代码 , 主要 需要 理解 的 部 分 是 头 4 行 和 最 后 4 行 。 在 初始 化 的 那儿 行 代码 中 ， 
指定 的 是 上 一 节 中 生成 的 访问 令 牌 和 其 他 相关 密 钥 。 而 在 最 后 4 行 中 ， 创 建 了 一 个 针对 信 
息 流 的 监听 器 。 特 别 在 最 后 一 行 ， 使 用 了 stream.filter 来 过 滤 twitter， 以 便 设置 要 跟踪 的 关 
键 字 。 这 里 可 以 一 次 设置 多 个 关键 字 。 在 这 个 例子 中 ,运行 结果 中 包含 所 有 与 Apple Watch 
这 个 词 相关 的 tweet。 


何 从 











接 下 来 的 这 个 示例 ， 要 将 上 面 收集 的 fweet 载 入 ， 带 你 来 看 看 tweet 的 结构 ， 
中 提取 出 有 意义 的 信息 。 通 常情 况 下 ，tweet JSON 在 结构 上 应 该 是 这 样 的 : 
{ 

"created at":"Wed May 13 04:51:24 +0000 2015", 


"id":598349803924369408， 
"id str":"598349803924369408", 



































并 探讨 如 





"text":"Google launches its first Apple Watch app with News & Weather 


http:\/\/t.co\/olXMBmhnH2", 

"source":"\u003ca href=\"http:\/\/ifttt.com\" rel=\"nofollow\"\ 
u003eIFTTT\u003c\/a\u003e", 

"truncated":false, 

"in reply to status id":null, 





"user":{ 

"id":1461337266, 

"id str":"1461337266", 

"name":"vestihitech \u0430\u0432\u0442\u043e\u043c\u0430\u0442", 
"screen name":"vestihitecha", 

"Location" :""/ 

"followers count":20, 

"friends count":1, 

"listed count":4, 

""statuses count":7442, 

"created at":"Mon May 27 05:51:27 +0000 2013", 
"utc offset":14400, 

}, 


"geo":{ "latitude" : 51.4514285, "longitude"=-0.99 
} 

"place":"Reading, UK", 

"contributors":null, 
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"retweet count":0, 

"favorite count":0, 

"entities":{ 

"hashtags": ["apple watch", "google" 
], 

"trends":[ 

], 

"urls":[ 

{ 
"url":"http:\/\/t.co\/olXMBmhnH2", 
"expanded url":"http:\/\/ift.tt\/lHfqhCe", 
"display url":"ift.tt\/lHfqhCe", 
"indices":[ 

66, 


], 

"user mentions":[ 

], 

"symbols":[ 

] 

}, 

"favorited":false, 
"retweeted" :false, 
"possibly sensitive":false, 
"filter level":"low", 
"lang":"en", 

"timestamp ms":"1431492684714" 
} 

] 


9.2 数据 提取 




















在 数据 提取 的 过 程 中 ， 有 一 些 最 常用 到 的 字段 。 
。 text: 即 用 户 所 提供 的 tweet 内 容 。 
。 user: 即 用 户 的 一 些 主要 属性 ， 如 用 户 名 、 所 在 地 和 照片 等 。 
。 Place: 即 发 布 tweet 的 地 方 ， 也 是 地 理 坐 标 。 


。 Entities: 即 用 户 在 其 tweet 中 所 附加 的 有 效 主 题 标 签 和 主题 。 
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在 实践 中 ， 上 述 每 个 属性 都 可 以 成 为 执行 社交 媒体 挖掘 的 实验 用 例 。 下 面 ， 来 看 看 应 该 









































如 何 获取 这 些 属性 ， 并 将 其 转换 成 某 种 可 读 性 更 好 的 形式 ， 或 者 对 其 进行 其 他 相关 的 处 理 : 














Source: tweetinfo.py 

>>> import json 

>>> import sys 

>>> tweet = json.loads (open(sys.argv[1]) .read()) 


>>> tweet texts = [ tweet['text']\ 
for tweet in tweet ] 
>> >tweet source = [tweet ['source'] for tweet in tweet] 
>>> tweet geo = [tweet['geo'] for tweet in tweet] 
>>> tweet locations = [tweet['place'] for tweet in tweet] 
>>> hashtags = [ hashtag['text'] for tweet in tweet for hashtag in 
tweet['entities']['hashtags'] ] 
>>> print tweet texts 
>>> print tweet locations 
>>> print tweet geo 
>>> print hashtags 





























正如 所 期 待 的 那样 ， 上 述 代码 会 输出 4 个 列表 ， 其 中 ，tweet_texts 中 包含 的 是 所 有 的 









































tweet 内 容 ， 此 外 还 有 该 tweet 所 在 的 位 置 和 主题 标签 。 








提示 : 
” ”这 段 代码 只 是 用 json.loads() 加 载 了 一 段 以 JSON 格式 生成 
的 输出 。 建 议 读者 使 用 像 Json Parser (http:// json.parser. 
online.ft/ ) 这 样 的 线 上 工具 来 帮助 你 理解 这 段 JSON 输出 
的 含义 ， 以 及 它 的 属性 〈 键 和 值 ) 内 容 。 











如 果 仔 细 观 察 的 话 ， 会 发 现 这 段 JSON 被 分 成 了 不 同 的 层次 ， 其 中 有 些 属性 ， 如 text 

















就 只 有 





























个 直接 值 ， 而 有 些 属 性 有 更 多 的 嵌 套 信息 。 这 就 是 为 什么 如 果 想 要 查看 hashtag 















































属性 ， 就 必须 迭代 上 几 个 层次 ， 而 对 于 test 属性 ， 就 上 只 需 直接 获取 值 即 可 。 由 于 文件 实际 
是 一 个 tweet 列表 ,所 以 必须 要 通过 人 迭代 该 列表 才能 获取 到 所 有 的 tweet， 而 这 里 每 个 tweet 
对 象 的 结构 和 上 面 那个 tweet 示例 是 基本 相同 的 。 


热门 话题 







































































如 果 想 要 在 上 面 这 种 设置 条 件 下 查找 出 当前 热门 的 话题 。 最 简单 的 一 种 方法 就 是 查看 所 





















































有 tweet 中 单词 的 频率 分 布 情况 。 因 为 目前 已 经 有 了 一 个 包含 所 有 tweet 的 tweet text 列表 : 














异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





134 第 9 





Python 中 的 社交 媒体 挖掘 





章 





























































































































>>> import nltk 

>>> from nltk import word tokenize,sent tokenize 

>>> from nltk import FreqDist 

>>> tweet tokens = [] 

>>> for tweet in tweet text: 

>>> tweet tokens .append (word tokenize (tweet)) 

>>> Topic distribution = nltk.FreqDist (tweet tokens) 

>>> Freq dist nltk.plot(50, cumulative=False) 

除 此 之 外 ， 还 有 一 个 更 复杂 一 些 的 方法 ， 就 是 利用 第 3 章 “ 词 性 标注 ”中 所 学 到 的 词 
性 标注 器 。 其 原理 是 ,主题 在 大 多 数 情况 下 都 是 一 些 名 词 或 实体 项 ， 所 以 ， 可 以 对 其 执行 
相同 的 处 理 。 上 面 的 代码 已 经 读 取 了 每 个 tweet 并 对 其 进行 了 标识 化 ， 下 面 以 POS 为 过 滤 
器 ， 只 选取 其 中 的 名 词 来 充当 主题 

>>> import nltk 

>>> Topics = [] 

>>> for tweet in tweet text: 

>>> tagged = nltk.pos tag (word tokenize (tweet)) 

>>> Topics token = [word for word,pos in ] in tagged if pos in ['NN','NNP'] 

>>> print Topics token 

如 果 想 让 这 个 例子 再 酷 炫 一 点 , 还 可 以 跨 时 段 地 收集 一 些 tweet, 然后 为 其 生成 绘制 图 。 


这 样 就 会 得 到 一 份 含义 非常 清 
相关 的 数据 。 这 个 词 应 该 会 
一 天 达到 高 











楚 的 热门 报告 。 例 如 ， 
在 苹果 推出 Apple Watch 的 那 
高 峰 。 但 更 感 兴趣 的 是 那儿 天 除了 这 些 主题 ， 还 























随 着 时 间 





呈现 出 了 何 种 讨论 趋势 。 





9.3 地 理 可 视 化 























地 理 





位 置 的 可 视 化 也 是 社交 媒体 的 常见 应 用 之 一 。 在 tweet 











longitude 和 latitude 这 三 个 与 之 相关 的 属 
视 化 程序 库 做 出 图 

在 这 个 例子 中 看 到 
从 中 可 以 清楚 地 看 出 





进行 类 似 


进行 文本 挖掘 








性 。 通 过 访问 这 些 属 性 











9-1 所 示 的 内 容 。 


的 只 是 其 中 一 种 可 视 化 实现 ， 
































= 天 入 到 
出 现 了 什么 样 


它 呈 现 的 是 全 美 tweet 上 
纽约 这 些 东部 地 区 的 使 用 强度 正在 增长 。 现 在 ， 











之 前 正在 寻找 的 是 与 “Apple Watch” 





义 广 Hn 








结构 中 ， 会 
生 ， 就 能 利 























品 开始 销售 
的 主题 ， 这 些 主 


的 那 




















沼 


到 geo、 





] 像 D3 这 样 的 可 


的 可 视 化 分 布 。 














公司 可 以 通过 对 客户 





























的 分 析 来 厘清 其 




















以 此 来 推断 哪 几 个 州 的 客户 对 公司 不 太 满 意 等 情况 。 





二 
~ 
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客户 群 喜欢 竺 在 哪些 地 方 。 除 此 之 外 ， 还 能 

















民 据 情绪 来 对 tweet 
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图 9-1 





9.3.1 影响 力 检测 


在 社交 图 语 境 中 ， 对 具有 重要 影响 力 的 社交 图 中 的 重要 节点 进行 检测 也 是 一 个 很 重要 
的 问题 。 因 此 ， 如 果 我 们 手 里 有 数 百 万 条 关于 我 们 公司 的 tweet， 那 么 其 中 一 个 重要 用 例 就 
是 要 收集 该 社交 媒体 中 最 有 影响 力 的 那些 客户 ， 然 后 针对 他 们 进行 品牌 推广 、 营 销 或 改善 
他 们 的 参与 度 。 
如 果 具 体 到 Twitter 的 情况 ， 就 得 回 到 图 论 和 PageRank 的 概念 上 来 ， 其 中 对 于 一 个 给 
定 的 节点 ， 如 果 其 出 度 (outdegree) 比例 比 入 度 (indegree) 高 ， 该 节点 就 是 具有 影响 力 的 。 
原因 非常 直观 ， 拥 有 较 多 关注 者 的 人 显然 通常 要 比 他 们 所 关注 的 人 有 影响 力 。 有 一 家 名 为 
KLOUT (https:/klout.com/) 的 公司 一 直 很 专注 于 这 类 问题 。 所 以 下 面 就 来 写 一 个 最 基本 而 
且 直 观 的 算法 来 为 这 些 公司 评 个 分 ; 


>>> klout scores = [ (tweet['user']['followers count]/tweet['user'] 



































































































































['friends count'],tweet['user']) for tweet in tweet ] 








当然 在 这 些 以 Twitter 为 基础 的 例子 中 ， 我 们 所 修改 的 字段 内 容 始终 是 完全 相同 的 。 其 
实 也 可 以 用 Facebook 帖子 来 示范 如 何 构 建 热门 话题 。 同样 地 , 也 可 以 示范 如 何 对 Facebook 
有 户 、 所 发 帖 的 地 理 位 置 及 其 影响 力 进行 可 视 化 处 理 。 事 实 上 ， 下 一 节 就 要 来 看 看 这 些 应 
在 Facebook 中 会 有 哪些 变化 。 


9.3.2 Facebook 












































> 


























Facebook 的 私人 化 程度 要 更 高 一 些 ， 有 些 接近 于 私人 式 的 社交 网 络 。Facebook 出 于 隐 
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私 和 安全 方面 的 考虑 ， 通 常 不 会 允许 我 们 收集 用 户 的 订阅 内 容 / 帖 子 。 因 此 ，Facebook 的 图 








结构 API 





口 


| 
人 有 目 




















以 有 限 的 方式 来 反馈 给 定 页 面 ， 关 于 这 方面 的 内 容 ， 














E 荐 读者 去 阅读 一 下 

















https://developers.facebook.com/docs/graph-api/using-graph-api/v2.3 中 的 说 明 ， 以 加 深 理 解 。 


接 下 来 要 解决 的 
Facebook API 编写 了 很 多 封装 器 ， 这 里 使 用 的 是 最 常见 的 Facebook SDK: 


绕 



































个 问题 是 如 何 














并 加 以 应 用 。 业 界 转 











] Python 来 访问 这 些 图 结构 API 





























$ pip install facebook-sdk 


然后 ， 





一 个 应 用 程序 。 


3 


小 技巧 : 


也 可 以 到 以 下 链接 中 获取 相应 的 安装 包 : 
https://github.com/Pythonforfacebook/facebook-sdk. 


下 一 步 就 是 要 获取 应 用 程序 的 访问 令 牌 了 。Facebook 会 将 每 个 API 调用 都 视 为 





提示 : 























因此 即使 是 数据 收集 这 一 步骤 ， 也 需要 将 其 伪装 成 一 个 应 用 程序 。 








名、 如 果 想 要 获得 属于 自己 的 访问 令 牌 ， 请 访问 : 
https://developers.facebook.com/tools/explorer. 


现在 所 有 设置 者 
该 API 中 ，Facebook 提供 
索 功 能 。 这 种 情节 



































LL 下， 必 














艺 完 成 了 ! 下 面 先 来 试 试 一 个 使 用 度 最 高 的 Facebook 的 图 结构 API。 在 
的 是 一 个 针对 页 面 、 用 户 、 事 件 、 地 点 等 信息 的 基于 图 结构 的 搜 
得 相关 帖子 的 过 程 变 成 了 两 个 阶段 ， 必 须 先 找到 与 自己 感 兴趣 的 









































主题 相关 的 pageid / userid， 然 后 才能 访问 到 该 页 面 的 订阅 内 容 。 下 面 就 要 来 实现 一 个 简单 





的 用 例 ， 


>>> 
>>> 





>>> 



































就 是 在 某 公 司 的 官方 页 面 上 寻找 客户 投诉 。 其 具体 做 法 如 下 : 


import facebook 
import json 


fo = open("fdump.txt",'w') 


>>> ACCESS TOKEN = 'XXXXXXXXXXX' # https://developers .facebook .com/tools/explorer 
>>> fb = facebook .GraphAPI (ACCESS TOKEN) 

>>> company page = "326249424068240" 

>>> Content = fb.get object (company Page) 

>>> fo.write(json.dumps (content)) 


这 上 段 代 人 码 要 将 访问 令 牌 附加 到 Facebook 的 图 结构 API ' 
Facebook 做 一 个 REST 调用 。 但 




















访问 令 牌 ， 其 代码 如 下 : 


"website":"www.dimennachildrenshistorymuseum.org", 
"Can post":true, 














， 这 样 才能 通过 该 API 对 























前 提 是 必须 要 先 获得 给 定 页 面 的 ID 。 下 面 来 看 看 要 附加 的 
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"category 1List":[ 

{ 

"id":"244600818962350", 

"name":"History Museum" 

}, 

{ 

"id":"187751327923426", 

"name":"Educational Organization" 

} 

], 

"likes":1793, 

}, 

"id":"326249424068240", 

"category":"Museum/art gallery", 

"has added app" :false, 

"talking about count":8, 

"location":{ 

"city":"New York", 

"zip":"10024", 

"country":"United States", 

"longitude":-73.974413, 

"state":"NY", 

"street":"170 Central Park W", 

"latitude":40.779236 

}, 

"is community page":false, 

"username":"nyhistorykids", 

"description":"The first-ever museum bringing American history to life 
through the eyes of children, where kids plus history equals serious 
fun! Kids of all ages can practice their History Detective skills at 
the DiMenna Children's History Museum and:\n\n\u2022 discover the past 
through six historic figure pavilions\n\n\u20221", 

"hours":{ 

""thu 1 close":"18:00" 

}, 

"phone":"(212) 873-3400", 
"link":"https://www.facebook.com/nyhistorykids", 

"price range":"$ (0-10)", 

"checkins":1011, 

"about":"The DiMenna Children' History Museum is the first-ever museum 
bringing American history to life through the eyes of children. Visit it 
inside the New-York Historical Society!", 

"name":"New-York Historical Society DiMenna Children's History Museum", 
"cover":{ 
"source":"https://scontent.xx.fbcdn.net/hphotos-xpf1/t31.0-8/s720x720/104 


异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





138 第 9 章 


Python + 





的 社交 媒体 挖掘 


9166 672951706064675 339973295 o.jpg", 
"cover id":"672951706064675",， 


"offset x" 
"offset y":54, 


:0， 


"id":"672951706064675" 


}, 


"were here count" 


:1011, 


"is published":true 


}, 





如 你 所 见 » 这 














里 所 展现 的 Facebook 数据 模式 与 Twitter 非常 类 似 。 接 下 来 




















个 用 例 究 








竟 请 求 到 了 怎 











怎样 的 信息 。 在 大 多 数 情况 下 , 用 户 的 post、 category、name、about 和 likes 











都 是 它 的 重要 字段 。 当 然 ， 这 个 例子 所 演示 的 是 一 个 博物 馆 的 页 面 ， 而 在 更 商业 化 的 用 例 中 ， 


公 司 页 面 上 应 该 会 


假设 组 乡 
上 投诉 了 我 们 。 























a 
































只 xyz.org 在 Facebook 上 有 
这 对 于 
] 的 方式 非常 简单 。 需 要 先 在 fdump.txt 中 查找 一 





第 6 章 使 用 文本 分 类 算法 来 进行 评分 的 方法 差不多 了 。 





个 长 长 的 帖子 列表 和 其 他 有 用 的 信息 ， 


个 专 
投诉 分 类 这 样 的 应 





它们 都 可 以 提供 很 好 的 观察 点 。 
属 页 面 , 而 现在 想 要 了 解 有 哪些 用 户 在 页 面 
来 说 也 是 一 个 很 好 的 用 例 。 目 前 实现 这 一 应 
组 关键 字 ， 然 后 其 操作 的 复杂 程度 就 与 




















F 些 





























































































































现在 来 看 男 一 个 


















































用 例 ， 碍 找 感 兴趣 的 主题 ， 并 在 其 结果 页 面 中 查看 开放 性 帖子 及 其 评 














论 。 这 个 功能 与 直接 用 Facebook 主页 上 的 图 形 搜索 栏 来 搜索 非常 类 似 。 但 用 编程 的 方式 来 





















































做 这 件 事 的 好 处 是 可 以 自行 主导 这 些 搜索 , 并 可 以 对 每 个 页 面 上 的 用 户 评论 进行 递归 搜索 。 
下 面 来 看 看 搜索 用 户 数据 的 代码 : 

User search 

>>> fb.request("search", {'q' 'nitin', "tyPe' 'user'}) 

Place based on the nearest location. 

>>> fb.request("search", {'q' 'starbucks', 'type' 'place'}) 

Look for open pages. 

>>> fb.request("search", {'q' 'Stanford university', 'type' : page}) 

Look for event matching to the key word. 

>>> fb.request("search", {'q' 'beach party', 'type' 'event'}) 

一 旦 将 所 有 的 相关 数据 都 转换 成 了 结构 化 格式 , 接 下 来 就 可 以 运用 在 探讨 NLP 和 机 器 
学 习 这 些 主题 时 所 学 到 的 那些 概念 了 。 下 面 选择 用 同一 个 用 例 来 查找 帖子 ,不 过 这 回 主要 找 























到 的 是 该 Facebook 页 面 上 的 投诉 信息 。 
假设 现在 得 到 了 以 下 格式 的 数据 ”: 





Q@ 译 者 注 : 考虑 到 原文 讨论 的 是 英文 环境 下 的 文本 处 理 ， 




















其 处 理 逻 辑 跟 中 文大 不 相同 ， 所 以 数据 文本 还 是 不 翻译 为 好 。 
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Userid FB Post 
XXXX0001 The product was pathetic and Itried reaching out to your customer care, but nobody responded 
XXXX002 Great work guys 
XXXX003 Where can I call to get my account activated ??°? Really bad service 

在 这 里 ， 我 们 等 于 是 回 到 了 第 6 章 所 用 过 的 那个 示例 中 ， 当 时 构建 了 一 个 文本 分 类 
器 ， 并 用 它 来 检测 某 段 SMS《〈 消 息 文 本 ) 是 否 为 垃圾 邮件 。 类 似 地 ， 在 这 里 也 可 以 利用 
这 些 帖 子 中 的 数据 来 创建 训练 数据 ， 在 这 里 需要 这 些 手动 标注 器 标注 出 那些 带 投 诉 内 容 
的 评论 ， 其 他 则 一 概 忽略 。 一 旦 得 到 了 这 些 重 要 的 训练 数据 ， 就 可 以 构建 出 相同 的 文本 

















分 类 器 了 : 





怠 。 
这 


种 则 是 非 投诉 类 信息 。 尽 管 是 以 相同 的 方式 构建 了 一 个 单元 或 二 元 模型 的 向 量化 器 ， 但 事 
实 上 这 里 是 可 以 用 相同 的 处 理 过 程 来 构建 一 个 分 类 器 的 ， 因 为 忽略 了 这 里 的 一 些 预 处 理 步 


fb classification.py 

>>> from sklearn.feature extraction.text import TfidfVectorizer 

>>> vectorizer = TfidfVectorizer (min df=2, ngram range=(1, 2), stop_ 
words='english', strip accents='unicode', norm='12') 

>>> X train = vectorizer.fit transform(x train) 

>>> X test = vectorizer.transform(x test) 


>>> from sklearn.linear model import SGDClassifier 
>>> clf = SGDClassifier(alpha=.0001, n iter=50) .fit(X train, y train) 
>>> y pred = clf.predict(X test) 














接 下 来 ， 假 设 这 里 只 有 三 种 样本 。 将 其 中 的 第 一 种 和 第 三 种 标注 为 投诉 类 信息 ， 第 二 





























































































































你 可 以 在 这 里 执行 与 第 6 章 中 相同 的 处 理 过 程 。 当 然 在 某 些 情况 下 ， 想 要 得 到 像 上 面 
的 训练 数据 是 非常 困难 或 者 代价 高 昂 的 。 所 以 对 于 其 中 的 一 些 情况 ， 也 可 以 采用 像 文 





















































本 聚 类 或 主题 建 模 这 样 的 无 监督 型 算法 。 除 此 之 外 ， 另 一 种 做 法 是 采用 一 些 开 放 使 用 的 不 
































同 数据 集 ， 然 后 用 它 来 构建 模型 并 应 用 。 例 如 在 同一 个 用 例 中 ， 也 可 以 直接 以 Web 的 方式 
来 抓 取 一 些 可 用 的 客户 投诉 ， 并 将 其 用 作 模 型 中 的 训练 数据 。 这 也 是 一 种 很 好 的 获取 相关 


标签 数据 的 替代 做 法 。 






























































9.3.3 ”有 影响 力 的 朋友 























找 出 你 社交 关系 图 中 最 有 影响 力 的 人 也 是 社交 媒体 中 一 个 常见 的 用 例 。 对 于 我 们 来 说 












































这 个 问题 就 是 要 找 出 一 个 在 图 结构 中 拥有 大 量 入 向 链接 和 外 向 链接 的 节点 ， 它 就 被 认为 是 












































有 影响 力 的 三 点 。 
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在 商业 背景 下 ， 相 同 的 问题 可 能 就 是 要 找 出 最 有 影响 力 的 客户 ， 并 以 他 们 为 目标 来 推 
销 产 品 

下 面 就 来 看 一 下 寻找 有 影响 力 的 朋友 的 代码 : 


>>> friends = fb.get connections ("me", "friends")["data"] 
>>> print friends 

>>> for frd in friends: 

>>> print fb.get connections (frd["id"],"friends") 





























一 旦 手 里 有 了 一 个 包含 自身 所 有 朋友 以 及 这 些 朋友 的 共同 朋友 的 列表 ， 就 可 以 创建 一 
个 这 样 的 数据 结构 : 

















源 节点 目标 节点 存在 链接 数 
朋友 1 朋友 2 1 
朋友 1 朋友 3 1 
朋友 2 朋友 3 0 
朋友 1 朋友 4 1 
































这 是 一 种 可 用 来 生成 某 种 网 络 关系 的 数据 结构 ， 它 非常 有 利于 对 社交 关系 图 进行 可 视 
化 。 这 里 使 用 的 D3 库 ， 但 Python 社区 中 还 有 一 个 名 为 NetworkX (https://networkx. 
github.io/) 的 库 ， 也 可 以 用 来 生成 可 视 化 的 图 结构 ， 如 图 9-2 所 示 。 要 想 生 成 可 视 化 的 图 
结构 ， 首 先 要 基于 之 前 的 信息 弄 清楚 谁 是 谁 的 朋友 ， 以 此 来 创建 一 个 邻接 算 阵 。 


































































































图 9-2 
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本 章 带 你 接触 到 了 一 些 当 下 最 流行 的 社交 网 络 ,并 学 习 了 如 何 使 用 Python 来 获取 它们 
的 数据 。 在 这 个 过 程 中 , 我 们 带 你 了 解 了 它们 的 数据 结构 和 各 类 属性 数据 , 并 探索 了 其 API 
所 提供 的 不 同 选项 。 

另外 ， 也 探讨 了 一 些 在 社交 媒体 挖掘 领域 中 最 常见 的 用 例 。 这 些 用 例 包 括 热门 话题 提 

、 影 响 者 检测 ， 信 息 流 分 析 等 。 还 对 其 中 的 一 些 用 例 进行 了 可 视 化 处 理 。 除 此 之 外 ， 还 
运用 了 上 一 章 所 学 到 的 知识 ， 用 NLTK 来 完成 一 些 主题 获取 和 实体 提取 的 任务 ， 并 用 
scikit-learn 对 一 些 投诉 信息 进行 了 分 类 。 

最 后 ， 建 议 读者 可 以 再 寻找 一 些 其 他 的 社交 网 络 环境 来 执行 相同 的 用 例 ， 并 自行 探索 
它们 。 这 些 社交 网 络 大 部 分 都 会 提供 一 组 数据 API， 而 且 其 中 绝 大 多 数 是 开放 的 ， 足 以 做 
一 些 有 趣 的 分 析 。 如 果 你 想 实 现 本 章 所 学 习 到 的 这 些 应 用 ， 就 需要 了 解 如 何 用 这 些 API 来 
获取 数据 ， 然 后 如 何 运 用 之 前 章节 中 所 学 到 的 一 些 概念 。 期 待 读者 在 学 习 这 一 切 的 过 程 中 
能 想 出 更 多 的 用 例 ， 和 一 些 有 趣 的 社交 媒体 分 析 。 
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本 


大 规模 地 使 月 
了 一 定 的 了 解 。 在 此 基础 
1 pandas 这 几 个 库 都 可 以 被 应 


scikit-learn 条 


二 打算 








再 回顾 2 





前 章节 











日 这 些 库 











FP 提 到 的 一 


| 


些 程序 库 ， 但 这 回 要 谈 的 是 如 何在 大 数据 环境 中 
因此 ， 本 章 会 假设 读者 对 于 Hadoop+Hive 这 样 的 大 数据 框架 已 经 有 


DD 100 
UDUUUD 





























上 之 上 ， 我 们 会 对 一 些 Python 库 进 行 一 些 相 应 的 探讨 ， 例 如 NLTK、 











j 于 带 有 大 和 








还 将 会 讨论 一 些 NLP 和 文本 挖掘 领域 中 常见 的 用 
片段 ， 以 便 帮 助 你 完成 相关 的 工作 。 有 具体 来 看 三 个 会 涉及 绝 大 多 数 文本 挖掘 问题 的 主要 示 


例 。 这 些 示例 会 告诉 你 丸 





当然 ， 机 器 学 习 和 NLP 还 有 
将 会 简单 地 讨论 
FE 某 些 条 件 下 可 以 














Ri 





























I 何 通 过 大 规模 地 执行 NLTK 来 完成 本 书 最 初 几 章 中 所 介 
NLP 任务 。 此 外 ， 还 将 通过 几 个 例子 来 介绍 如 何在 大 数据 条 件 














男 





























由 





到 目前 为 








高 度 规模 化 应 用 
下 上 一 章 中 的 一 些 问题 ， 看 看 这 些 问 题 是 否 属 于 大 数据 问题 ， 或 者 是 否 
用 大 数据 的 方式 来 解决 这 些 问 题 。 
止 所 学 习 的 大 多 数 库 都 是 月 
来 处 理 大 数据 也 是 本 章 的 了 


要 问题 之 一 。 











有 Python 编写 的 ， 所 以 如 何 





规模 非 结构 化 数据 的 Hadoop 集群 。 





例 ， 在 这 过 程 中 ， 也 会 给 出 一 些 代码 























的 那些 
站 执行 文本 分 类 任务 。 


的 问题 就 是 它们 是 否 可 并 行 化 。 这 里 
















































































j Python (Hadoop) 











在 阅读 完 本 章 之 后 ， 我 们 希望 读者 掌握 以 下 内 容 。 


10. 1 


在 Hadoop || 














能 生 








好 地 了 解 Hadoop、Hive 这 些 与 大 数据 相关 的 技术 , 并 在 其 
根据 教程 一 步 一 步 地 掌握 如 何在 大 数据 条 从 




















条 件 下 使 用 Python。 








FE 下 使 用 NLTK、Scikit 和 PySpark。 


在 Hadoop 上 使 用 Python 的 不 同方 式 








上 运行 一 个 Python 进程 的 方式 有 很 多 种 。 在 这 里 ，; 

















于 
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最 为 流行 的 方式 ， 并 通过 这 些 方式 在 Hadoop 上 用 Python 来 实现 流 式 的 MapReduce 作业 %、 
Hive 中 的 Python UDF 以 及 Python hadoop 包装 器 。 


10.1.1 Python 的 流 操作 


通常 ， 一 个 典型 的 Hadoop 作业 必须 要 被 写成 map+reduce 函数 的 形式 。 用 户 需 要 根据 给 定 
任务 来 编写 相应 的 map+reduce 函数 的 实现 。 这 些 mapper 和 reducer 通常 是 用 Java 来 实现 的 。 而 
与 此 同时 Hadoop 也 提供 了 流 操作 的 接口 , 用 户 可 以 基于 这 些 接口 来 写 一 个 Python 封装 器 , 并 用 
其 他 任意 一 种 语言 来 编写 之 前 由 Java 所 实现 的 mapper 和 reducer 函数 。 接 下 来 看 一 个 用 Python 
编写 的 单词 计数 示例 。 而 且 本 章 稍 后 还 会 介绍 如 何 用 NLTK 库 再 实现 一 次 。 


























bp 





























































































































提示 : 
、 如果 你 还 不 太 了 解 情况 ， 可 以 看 看 下 面 链接 中 的 资料 : 
http:/www.michael-noll.com/tutorials/writingan-hadoop- 
mapreduce-program-in-python/ 了 解 一 下 Python 环境 下 
的 MapReduce 模式 。 


10.1.2 Hive/Pig 下 的 UDF 























另 一 种 使 用 Python 处 理 大 数据 的 方式 就 是 在 Hive/Pig 中 编写 UDF (User Defined 
Function)。 这 种 方法 的 思路 认为 ， 在 NLTK 中 所 执行 的 大 多 数 操作 都 是 高 度 可 并 行 化 的 。 如 
说 词性 标注 、 标 识 化 处 理 、 词 形 还 原 、 停 用 词 移 除 以 及 NER 这 些 都 是 可 高 度 分 布 式 执行 的 操 
作 。 因 为 其 中 的 每 一 行内 容 都 独立 于 其 他 行 ， 所 以 在 执行 这 些 操作 时 不 需要 根据 任何 上 下 文 。 
因此 ， 如果 在 集群 上 的 每 个 节点 上 都 部 署 了 NLTK 及 其 他 Python 库 ， 也 可 以 用 Python 来 编 
写 一 些 用 户 定义 函数 《UDF)， 以 借助 NLTK 和 scikit 这 些 库 的 功能 。 这 是 引用 NLTK 最 简单 的 
一 种 方法 ， 对 于 scikit 的 大 规模 引用 则 更 是 如 此 。 本 章 后 续 内 容 中 具体 介绍 这 两 个 库 的 情况 。 


10.1.3” 流 封装 器 
可 以 将 不 同 组 织 所 实现 的 各 种 封装 器 列 成 一 份 长 长 的 列表 ,以 便 能 让 人 明白 Python 在 
集群 上 可 以 执行 的 各 项 任务 。 这 其 中 有 一 些 封 装 使 用 起 来 其 实 相 当 简 单 ， 但 问题 是 它们 都 


有 性 能 较 差 这 个 问题 。 我 在 下 面 也 列 出 了 一 些 ， 如 果 你 想 了 解 它 们 ， 可 以 去 这 些 项 目的 网 
站 阅读 一 下 相关 介绍 。 
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@) 译 者 注 ， MapReduce 是 一 种 编程 方式 ， 主 要 用 于 针对 大 规模 数据 集 的 并 行 计算 。 
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e Hadoopy。 

e Pydoop。 

e Dumbo。 

e mrjob。 

提示 : 
”” 如果 想 查看 一 份 更 详细 的 目前 Hadoop 上 可 供 选择 的 
Python 库 列表 ， 读 者 可 以 参阅 下 面 这 篇 文章 : 


http://blog.cloudera.com/blog/2013/01/a-guide- 
topython-frameworks-for-hadoop/。 


10.2 Hadoop 上 的 NLTK 


之 前 已 经 从 一 个 库 的 角度 对 NLTK 进行 了 充分 的 讨论 ， 并 介绍 了 它 的 一 些 最 常用 的 函 
数 。 目 前 ，NLTK 已 经 可 以 解决 许多 NLP 问题 ， 这 其 中 有 许多 都 是 高 度 可 并 行 化 的 方案 。 
这 也 是 为 什么 要 试 着 在 Hadoop 上 使 用 NLTK 的 原因 。 

在 Hadoop 上 上， 运行 NLTK 的 最 佳 途径 就 是 将 其 安装 在 集群 的 所 有 节点 上 。 这 实现 起 
来 并 不 困难 。 有 几 种 方式 都 可 以 做 到 这 一 点 ， 例 如 可 以 将 资源 文件 以 流 参 数 的 形式 发 送 。 
日 通 常 都 选择 下 面 的 第 一 个 选项 。 

10.2.1 用 户 定义 函数 (UDF ) 


在 Hadoop 上 运行 NLTK 的 方法 有 很 多 , 下面 讨 论 一 个 实例 , 来 看 看 它 是 如 何 用 NLTK 
来 实现 一 个 Hive UDF， 以 便 完成 并 行 式 的 标识 化 处 理 。 
这 个 用 例 的 操作 可 以 分 成 以 下 步 又 。 


1. 这 里 选择 了 一 个 只 包含 两 列 数据 的 小 型 数据 集 ， 然 后 在 Hive 中 创建 与 之 相对 于 的 
相同 数据 模式 ”: 
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内 容 
UA0001 "Itried calling you. The service was not up to the mark" 
UA0002 "Can you please Update my phone no" 
UA0003 "Really bad experience" 
UA0004 "I am looking for an iPhone" 

















Q@ 译 者 注 : 由 于 原文 针对 的 是 英文 环境 ， 所 以 这 里 的 例句 就 不 翻译 了 ， 下 同 。 
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2. 现在 ， 在 Hive 中 创建 相同 的 数据 模式 ， 该 操作 的 Hive 脚本 如 下 : 





Hive script 





CREATE TABLE $InputTableName ( 














ID Stringy 
Content String 


) 
ROW 





FORMAT DELIMITED 

















FIELDS TERMINATED BY '\t'; 











3. 数据 模式 建构 完成 之 后 ,下 一 步 要 做 的 就 是 针对 每 一 个 独立 列 中 的 内 容 进行 类 似 于 
标识 化 的 处 理 。 所 以 ， 现 在 就 会 想 在 $ outTable 中 设置 另 一 个 具有 相同 模式 的 列 ， 并 为 其 添 















































加 相应 的 标识 列 : 





Hive Script 














CREATE TABLE S$OutTableName ( 


ID 


String, 


Content String, 





Tokens String 


) 

















4. 现在 模式 方面 的 准备 已 经 完成 了 ， 接 下 来 要 用 Python 来 编写 UDF， 以 逐 行 读 取 上 
面 的 数据 表 ， 并 对 其 执行 tokenize0 方 法 。 这 一 过 程 与 第 3 章 中 所 做 的 事情 非常 类 似 。 这 是 
个 与 第 3 章 中 所 有 示例 都 很 类 似 的 函数 。 而 且 ， 如 果 你 现在 还 想 获得 其 POS 标签 、 词 形 
































|“ 污 下 














还 原 以 及 某 HTML 标记 的 话 ， 只 需要 相应 地 修改 一 下 这 个 UDF 即 可 。 下 面 就 来 看 看 UDF 
是 如 何 查 找 相关 标识 的 : 





>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


import sys 

import datetime 

import pickle 

import nltk 

nltk.download('punkt') 

for line in sys.stdin: 
line = line.strip() 
print>>sys.stderr, line 
id, content= line.split('\t') 
print>>sys.stderr ,tok .tokenize (content) 
tokens =nltk.word tokenize (concat all text) 
print '\t'.join([id,content,tokens]) 


5. 接 下 来 ， 命 名 一 下 这 个 UDF， 如 nltk_scoring.py。 
6. 现在 ， 用 TRANSFORM 函数 来 执行 Hive 的 insert 查询 ， 以 便 将 上 面 的 UDF 应 用 
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到 给 定 的 内 容 中 ， 


Hive Script 





将 


各 新 列 标记 化 并 转 储 其 标识 : 























全 











add FILE nltk scoring.py; 

add FILE english.pickle; #Adding file to DistributedCache 
INSERT OVERWRITE TABLE S$OutTableName 

SELECT 












































TRANSFORM (id, content) 
USING '"'PYTHONPATH nltk scoring.py' 
AS (id string, content string, tokens string ) 
FROM $InputTablename; 











7. 如 果 你 在 上 述 过 程 中 遇 到 了 下 面 这 样 的 错误 信息 , 就 说 明 NLTK 机 器 数据 组 件 没有 
被 正确 安装 : 






































raiseLookupError (resource not found) 


LookupError: 
炎炎 炎炎 炎炎 火炎 炎炎 炎炎 炎炎 殉 灾 炎炎 炎炎 炎炎 火炎 克 火 炎 灾 殉 灾 炎 克 炎炎 炎炎 火炎 克 灾 克 炎 交 克 炎炎 炎炎 炎炎 火炎 太 炎 克 火 克 克 炎 克 炎 殉 炎 赤 炎炎 


大 大 大 大 


Resource u'tokenizers/punkt/english.pickle' not found. Please 
use the NLTK Downloader to obtain the resource: >>> 
nltk.download () 
Searched in: 

- '/home/nltk data' 

- '/usr/share/nltk data' 

- '/usr/local/share/nltk data' 

- '/usr/lib/nltk data' 
'/usr/local/lib/nltk data' 





8， 如 果 该 Hive 作业 能 够 被 成 功 运 行 ， 就 会 得 到 一 张 名 为 OutTableName 的 表 ， 具 体 如 下 : 























ID 内 容 
UA0001 "I tried calling you, The service was |[" 1", " tried", "calling", "you", "The", "service" "was", 
not up to the mark" "not", "up", "to", "the", "mark"] 
UA0002 "Can you please update my phone no" |["Can", "you", "please" "update", " my", "phone" "no" 
UA0003 "Really bad experience" ["Really"," bad" "experience"] 
UA0004 "I am looking for an iphone" ["I", "am", "looking", "for", "an", "iPhone"] 


10.2.2 ”Python 的 流 操作 


下 面 来 试 试 第 二 个 选项 : Python 流 。 根 据 现 有 的 Hadoop 流 来 编写 自己 的 mapper 和 
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reducer 函数 ， 然 后 使 用 mapperpy 来 操作 Python 流 ， 它 的 用 法 和 Hive UDF 非常 类 似 。 








SN 


2 











Ts 滞 





























面 ， 就 用 同一 个 例子 来 示范 一 下 map-reduce 函数 操作 Python 流 的 过 程 。 这 种 方法 提供 了 一 
















































































将 其 标识 化 ， 并 不 会 涉及 任何 reduce 操作 ， 但 为 了 让 学 习 有 





















































里 纳入 一 个 虚拟 的 reducer， 该 函数 只 负责 转 储 相关 结果 。 也 正 因 














名 来 自命 令 执行 环境 中 的 reducer。 下 面 是 Mapperpy 的 代码 : 





Mapper.py 


>>>import sys 

>>>import pickle 
>>>import nltk 

>>>for line in sys.stdin: 


>>> line = line.strip() 

>>> id, content = line.split('\t') 

>>> tokens =nltk .word tokenize(concat all text) 
>>> print '\t'.join([id,content,topics]) 


接 下 来 是 Reducer.py 的 代码 : 
Reducer.py 


>>>import sys 

>>>import pickle 
>>>import nltk 

>>>for line in sys.stdin: 


>>> line = line.strip() 
>>> id, content,tokens = line.split('\t') 
>>> print '\t'.join([id,content,tokens]) 











下 面 再 来 看 看 Hadoop 中 执行 Python 流 操作 的 命令 


hadoop jar <path>/hadoop-streaming.jar \ 














-D mapred.reduce.tasks=1 -file <path>/mapper.py \ 





-mapper <path>/mapper.py \ 
-file <path>/reducer.py \ 
-reducer <path>/reducer.py \ 
-input /hdfspath/infile \ 
-output outfile 


10.3 Hadoop 上 的 Scikit-learn 














定 的 完整 


为 如 此 ， 





可 以 使 用 Hive 表 ， 其 至 直接 使 用 HDFS 文件 的 选项 。 在 这 里 ， 只 示范 如 何 读 取 相关 的 内 
生 ， 我 会 在 这 

















这 里 可 以 完全 忽 








机 器 学 习 是 大 数据 领域 中 另 一 个 非常 重要 的 用 例 。 在 这 方面 Hadoop、scikit-learn 这 些 
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框架 就 显得 更 尤为 重要 了 ， 因 为 这 是 大 数据 环境 下 对 机 器 学 习 模 型 进行 评分 的 最 佳 选项 之 
由 于 大 型 机 器 学 习 本 身 就 是 当前 业界 最 热门 的 话题 之 一 ， 所 以 在 Hadoop 这 样 的 大 数 
据 环境 中 做 这 些 事 就 显得 更 为 重要 了 。 当 前 ， 机 器 学 习 模 型 主要 有 两 个 方面 的 问题 : 在 大 
数据 环境 下 建 模 ， 以 及 针对 大 量 数据 的 建 模 和 评分 。 
为 了 加 深 对 上 述 概 念 的 理解 ， 这 里 也 将 采用 之 前 那 张 表 中 的 相同 示例 数据 ， 这 其 中 包 
含 了 一 些 客户 的 评论 信息 。 现 在 假设 要 用 一 份 重 要 的 训练 样本 来 构建 一 个 文本 分 类 模式 ， 
并 利用 在 第 6 章 中 学 到 的 知识 在 该 数据 上 构建 出 朴素 贝 叶 斯 算法 、SVM 或 逻辑 回归 模型 。 
然后 在 进行 评分 的 时 候 ， 可 能 需要 面 对 的 是 针对 海量 数据 的 评分 ， 如 说 客户 评论 这 样 的 信 
县 。 另 一 方面 ， 靠 scikit-learn 库 在 大 数据 环境 中 建 模 是 做 不 到 的 ， 所 以 这 里 会 需要 用 到 像 
spark / Mahot 这 样 的 工具 。 另 外 ， 还 会 像 在 使 用 NLTK 时 一 样 用 到 某 种 预 训练 模型 ， 并 执 
行 相同 的 步骤 评分 方法 ， 下 一 节 中 将 会 介绍 其 建 模 过 程 。 特 别 在 处 理 处 理 文 本 挖掘 类 问题 
时 ,使 用 预 训练 模型 来 执行 评分 是 非常 合适 的 。 当 然 ， 需 要 将 这 里 的 两 个 主要 对 象 (vectorizer 
和 modelclassifier) 存储 成 某 种 序列 化 的 pickle 对 象 。 
提示 : 
，、 ”这 里 提 到 的 pickle 其 实 是 一 个 Python 模块 ， 主 要 用 于 
实现 序列 化 ， 即 通过 该 模块 ， 可 以 将 对 象 以 二 进 制 状 
态 存储 在 磁盘 上 ， 并 且 可 以 通过 二 次 加 载 来 使 用 。 
https://docs.python.org/2/library/pickle.htm!l., 
































































































































































































































下 面 ， 我 们 要 用 scikit 在 本 地 机 器 上 构建 离线 模型 ， 并 准备 好 pickle 对 象 。 举 例 来 说 ， 
如 果 这 里 重 现 的 是 第 6 章 中 朴素 贝 叶 斯 算法 的 那个 例子 ， 就 必须 要 将 其 中 的 vectorizer 和 
clf 转 储 成 pickle 对 象 : 


>>>vectorizer = TfidfVectorizer (sublinear tf=True, min df=in min df, 
stop words='english', ngram range=(1,2), max df=in max df) 
>>>joblib .dump (vectorizer, "vectorizer.pkl", compress=3) 

>>>clf = GaussianNB() .fit(X train,y train) 

>>>joblib.dump (clf, "classifier.pkl") 
































以 下 是 创建 输出 表 的 步骤 ， 该 表 中 包含 了 所 有 客户 评价 的 历史 记录 。 


1. 在 Hive 中 创建 一 个 与 之 前 示例 相同 的 模式 。 下 面 就 用 Hive 脚本 来 执行 这 一 操作 。 这 
个 输出 表 可 能 很 巨大 ， 有 具体 到 眼下 这 个 例子 ， 假 设 这 其 中 包含 了 公司 收 到 过 的 所 有 客户 评论 ; 


Hive Script 



















































































CREATE TABLE $InputTableName ( 
ID String, 
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Content String 

) 

ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'; 



































2. 构建 组 成 输出 表 的 各 列 ， 例 如 评分 可 信 度 等 : 


Hive Script 














CREATE TABLE S$OutTableName ( 
ID String, 
Content String, 














predict String, 
predict score double 


) 


3. 接 下 来 ， 要 用 Hive 中 的 addFILE 命令 将 这 些 pickle 对 象 加 载 到 其 分 布 式 缓存 中 : 


add FILE vectorizer.pkil; 
add FILE classifier.pkil; 









































4. 下 一 步 就 是 编写 Hive UDF 了 ， 会 在 这 些 函 数 中 定义 如 何 加 载 这 些 pickle 对 象 。 现 
这 些 对 象 的 行为 必须 要 先 与 其 在 本 地 的 行为 保持 一 致 。 在 设置 好 这 些 classifier 和 




































































人 接 下 来 就 可 以 使 用 测试 样本 了 。 在 这 里 ， 测 试 样 本 只 是 一 个 字符 串 ， 












































生成 输出 的 是 TFIDF 向 量 。vectorizer 对 象 现在 属于 预测 类 ， 可 以 当 作 概率 类 来 使 用 : 





Classification.py 


>>>import sys 

>>>import pickle 

>>>import sklearn 

>>>from sklearn.externals import joblib 


>>>clf = joblib.load('classifier.pkl') 
>>>vectorizer = joblib.load('vectorizer.pkl') 


>>>for line in sys.stdin: 


>>> line = line.strip() 

>>> id, content= line.split('\t') 

>>> X test = vectorizer.transform([str(content)]) 
>>> prob = clf.predict proba(X test) 

>>> pred = clf.predict(X test) 

>>> prob_ score =prob[:,1] 

>>> print '\t'.join([id, content,pred,prob scorel]) 
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5. 在 编写 完 classification.py 中 的 UDF 之 后 , 还 必须 要 将 这 个 UDF 添加 到 分 布 式 缓存 
中 , 然后 有 效 地 在 输出 表 的 每 一 行 上 将 这 个 UDF 以 TRANSFORM 函数 的 形式 运行 。 其 Hive 
脚本 如 下 : 


Hive script 
































add FILE classification.py; 





INSERT OVERWRITE TABLE S$OutTableName 
SELECT 
TRANSFORM (id, content) 

USING "Python2.7 classification.py' 





























AS (id string, scorestringscore string ) 
FROM S$Tablename; 


Nl 
下 











pn 


6. 如 果 一 切 顺利 ， 就 会 得 到 符合 以 下 输出 模式 的 输 
































ID 内 容 预测 评分 可 信和 度 
UA0001 "Itried calling you, The service was not up to the mark" 投诉 0.98 
UA0002 "Can youplease update my phone no " 非 投 诉 0.23 
UA0003 "Really bad experience" 投诉 0.97 
UA0004 "I am looking for an iPhone " 非 投诉 0.01 















































如 你 所 见 ， 输 出 表 中 包含 了 过 去 所 有 的 客户 评论 记录 ， 以 及 这 些 评论 是 否 属于 投诉 的 
预测 和 预测 的 可 信和 度 。 当 然 例子 采用 的 是 Hive UDF, 但 类 似 的 过 程 也 可 以 用 Pig 和 Python 
流 的 方式 来 做 ， 其 做 法 与 用 NLTK 非常 类 似 。 

这 个 例子 所 演示 的 是 如 何在 Hive 上 对 机 器 学 习 模型 进行 评分 。 在 下 一 个 例子 中 ， 我 们 
将 要 讨论 如 何在 大 数据 环境 中 构建 机 器 学 习 /NLP 的 模型 。 









































| 





























10.4 PySpark 








先 来 回顾 一 下 之 前 是 如 何在 Hadoop 上 构建 机 器 学 习 /NLP 模型 ， 以 及 如 何 对 这 个 
Hadoop 上 的 ML 模型 进行 评分 的 。 在 上 一 节 中 ,我 们 较为 深入 地 讨论 了 一 下 评分 的 第 二 个 
选项 。 与 对 规模 较 小 的 数据 集 进 行 抽样 不 同 的 是 ， 我 们 这 次 要 对 规模 较 大 的 数据 集 进行 评 
分 ， 并 使 用 PySpark 库 来 逐步 构建 大 型 的 机 器 学 习 模 型 。 当 然 ， 我 们 在 这 里 会 再 次 使 用 到 
与 之 前 相同 模式 的 相同 的 运行 数据 : 
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ID 评论 类 别 
UA0001 Itried calling you, The service was not up to the mark 1 
UA0002 Can you please update my phone no 0 
UA0003 Really bad experience 1 
UA0004 Iam looking for an iPhone 0 
UA0005 Can somebody help me with my password 1 
UA0006 Thanks for considering my request for 0 

















， ， 我 们 要 考虑 的 是 近 10 年 来 评价 的 组 织 模式 。 但 现在 要 改 用 一 个 小 型 的 样本 ， 先 
为 其 创建 分 类 模型 ， 然 后 再 用 预 训练 模型 对 所 有 评论 进行 评分 。 下 面 ， 就 通过 一 个 例子 来 
一 下 这 个 过 程 ， 具 体 说 明 一 下 如 何 用 PySpark 库 来 构建 文本 分 类 模型 。 
首先 来 导入 一 些 模 块 。 从 SparkContext 开始 ， 这 更 多 的 是 一 个 配置 性 的 模块 ， 在 这 昌 
可 以 通过 更 多 的 参数 来 提供 信息 ， 如 应 用 程序 的 名 称 等 。 


>>> from pyspark import SparkContext 
>>> sc = SparkContext (appName="comment classifcation") 

























































































| 
人 















































提示 : 
、 ”如 果 想 了 解 关 于 PySpark 库 的 更 多 信息 , 你 可 以 阅读 一 
下 下 面 这 篇 文章 : 
http:/Spark.apache.org/docs/0.7.3/aplpyspark/ 
pyspark.context.SparkContext-class.html。 


接 下 来 要 读 取 这 个 由 制 表 符 分 隔 的 文本 文件 。 要 将 该 文件 读 取 到 HDFS 上 ， 文 件 的 体 
积 可 能 会 很 大 〈 一 Tb/Pb ): 


























>>> lines = sc.textFile("testcomments .txt") 














现在 ，lines 就 成 为 了 包含 语料库 中 所 有 行 的 一 个 列表 


>>> parts = lines.map (lambda 1: 1.split("\t")) 
>>> corpus = parts.map(lambda row: Row(id=row[0], comment=row[1], 





class=row[2])) 














这 部 分 代码 的 作用 获取 是 字段 列表 ， 其 依据 是 各 行 中 分 隔 字段 的 “\t” 符 。 
下 面 要 将 不 同 RDD 对 象 中 的 语料库 分 解 成 [ID, comment, class (0,1)] 的 形式 : 
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>>> comment = corpus.map(lambda row: " " + row.comment) 
>>> class var = corpus.map (lambda row:row.class) 














一 旦 收集 完了 评论 信息 ， 接 下 来 的 处 理 过 程 就 与 第 6 章 中 所 做 的 事 非常 类 似 了 。 这 
里 会 用 scikit 库 来 执行 标识 化 处 理 、 散 列 化 vectorizer 以 及 用 vectorizer 来 计算 TF、IDF 
和 tf-idf。 

下 面 来 看 看 如 何 创 建 标 识 化 处 理 、 词 汇 频 率 和 反 向 文档 频率 ， 其 代码 如 下 : 


>>> from pyspark.mllib.feature import HashingTF 






































>>> from pyspark.mllib.feature import IDF 
# https://spark.apache.org/docs/1.2.0/mllib-feature-extraction.html 


>>> comment tokenized = comment .map (lambda line: line.strip() .split(" ")) 
>>> hashingTF = HashingTF(1000) # to select only 1000 features 

>>> comment tf = hashingTF.transform(comment tokenized) 

>>> comment idf = IDF() .fit(comment tf£) 

>>> comment tfidf = comment idf.transform(comment tf£) 

















接 下 来 ， 要 将 该 类 与 tfidf RDD 对 象 进行 合 # 





>>> finaldata = class var.zip (comment tfidf) 


然后 来 做 一 个 典型 测试 ， 进 行 训练 取样 : 


>>> train, test = finaldata.randomSplit([0.8, 0.2], seed=0) 





TT 

















现在 来 执行 主 分 类 命令 ， 该 命令 与 scikit 库 非常 相似 。 这 里 使 用 的 是 逻辑 回归 算法 ， 
这 是 一 种 使 用 度 很 广 的 分 类 器 。pyspark.mllib 中 提供 了 各 种 可 用 的 算法 。 












































提示 : 
” ”如 果 想 了 解 更 多 关于 pyspark.mllib 的 信息 ， 可 以 参考 
以 下 链接 中 的 资料 : https://spark. apache.org/docs/latest/ 
api/python/pyspark.mllib.html. 


下 面 是 朴素 贝 叶 斯 分 类 器 的 示例 : 


>>>from pyspark .mllib.regression import LabeledPoint 
>>>from pyspark .mllib.classification import NaiveBayes 
>>>train rdd = train.map (lambda 七 : LabeledPoint(t[0], t[1])) 
>>>test rdd = test.map (lambda 七 : LabeledPoint(t[0], t[1])) 
>>>nb = NaiveBayes .train(train rdd,lambda = 1.0) 
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>>>nb_outpPut = test rdd.map (lambda point: (NB.Predict (point.features), 

point.1label)) 

>>>print nb output 

nb_output 命令 中 包含 了 对 于 测试 样本 的 最 终 预 测 。 这 里 需要 了 解 的 最 重要 的 一 件 事 是 ， 
上 面 的 样本 只 有 不 到 50 行 的 内 容 , 而 在 代码 中 所 构建 的 是 一 个 符合 行业 标准 的 文本 分 类 操 
作 ， 可 以 处 理 PB 级 规模 的 训练 样本 。 
























































10.5 “小结 














下 面 来 对 本 章 做 个 小 结 ， 本 章 的 目标 是 介绍 如 何在 大 数据 环境 中 使 用 目前 所 学 到 这 些 
概念 。 在 这 里 ， 有 具体 介绍 了 如 何在 Hadoop 中 使 用 NLTK 和 scikit 这 些 库 。 也 讨论 了 如 何 对 
机 器 学 习 模 型 或 基于 NLP 的 操作 进行 评分 。 

为 了 介绍 这 些 内 容 ， 本 章 主要 列举 了 3 个 业界 最 常见 的 用 例 来 做 演示 。 只 要 理解 了 这 
些 示例 ， 我 们 就 能 用 好 NLTK、scikit 和 PySpark 这 3 个 库 中 的 大 部 分 函数 了 。 


本 章 基 本 上 算是 对 大 数据 环境 下 的 NLP 和 文本 挖掘 所 做 的 一 个 速 食性 的 简介 。 这 毕竟 
是 当前 最 为 热门 的 话题 之 一 ， 示 例 代码 中 所 讨论 到 的 每 个 术语 和 工具 本 身 都 足以 写成 一 本 
书 。 这 里 试图 给 读者 提供 某 种 黑客 方法 ， 以 便 对 大 数据 这 种 规模 下 的 文本 挖掘 问题 做 一 个 
介绍 。 我 希望 并 鼓励 读者 多 阅读 一 些 和 大 数据 有 关 的 技术 资料 ， 如 Hadoop、Hive、Pig 和 
Spark 等 ， 并 自己 去 试 着 实现 一 下 本 章 所 介绍 的 这 些 示 例 。 
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购买 图 书 
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灵活 优惠 的 购书 
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入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 
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购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 
使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG 


， 然 后 点 击 “ 使 


用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 
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社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 
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提交 勘误 

您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 
者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 
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区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社 
会 议 活动 早 知道 


























您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 





加 入 异步 





扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 : 


微 信 服务 号 。 


社区 网 址 : www.epubit.com.cn 





官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 和 异步 社 区 ， 





投稿 & 咨询 : contact@epubit.com.cn 





微 信 订 阅 号 。 


区 提供 的 作者 专 享 特色 服务 。 





会 门票 。 











官方 微 博 ”QQ 群 : 436746675 


@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


异步 社区 会 员 13001013050(13001013050) 专 享 尊重 版 权 





NLTK 基 础 教程 


用 NLTK 和 Python 库 构 建 机 器 学 习 应 用 











自然 语言 处 理 ( NLP ) 属于 人 工 智能 与 计算 机 语言 学 的 交 
叉 领域 ， 处 理 的 是 计算 机 与 人 类 语言 之 间 的 交互 问题 。 随 着 人 
l= ly 
能 力 已 经 成 为 了 一 个 必然 趋势 。NLTK 正 是 这 一 领域 中 一 个 强 





大 而 稳健 的 工具 包 。 
国 
在 这 本 书 中 ， 我 们 首先 会 介绍 一 些 与 NLP 相关 的 知识 。 
然后 ， 我 们 会 探讨 一 些 与 数据 科学 相关 的 任务 ， 通 过 这 些 任 务 > 
来 学 习 如 何 从 零 开 始 构建 自 定义 的 标识 器 和 解析 器 。 在 此 过 
程 中 ， 我 们 将 会 深度 探索 NLP 和 领域 的 基本 概念 ， 为 这 一 领域 
图 





各 种 开源 的 Python 工具 和 库 提 供 具 有 实践 意义 的 见解 。 接 下 
来 ， 我 们 将 会 介绍 如 何 分 析 社 交 媒 体 网 站 ， 发 现 热门 话题 ， 进 
行 舆 情 分 析 。 最 后 ， 我 们 还 会 介绍 一 些 用 于 处 理 大 规模 文本 的 四 
La 


在 阅读 完 本 书 之 后 ， 您 将 会 对 NLP 与 数据 科学 领域 中 的 概 。 计 ， 
念 有 一 个 充分 的 了 解 ， 并 能 将 这 些 知识 应 用 到 日 常 工 作 中 。 


如 果 您 是 NLP 或 机 器 学 习 相关 领域 的 爱好 者 ， 并 有 一 些 文 “项 

本 处 理 的 经 验 ， 那 么 本 书 就 是 为 你 量 身 定做 的 。 此 外 ， 这 本 书 
也 是 专业 Python 程序 员 快 速 学 习 NLTK 库 的 理想 选择 。 
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